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Aterrorizados 


Da la impresión de que los ordenadores están volviéndose cada vez más 
inteligentes a una velocidad alarmante, pero algo que todavía no han 
aprendido a hacer es apreciar la ironía. En eso pensaba yo hace unos años 
cuando, de camino a un debate sobre inteligencia artificial (IA), me perdí en 
la capital de las búsquedas: Googleplex, la sede mundial de Google en 
Mountain View, California. No solo eso; me perdí dentro del edificio de 
Google Maps. Ironía al cuadrado. 

El edificio de Maps en sí no me había costado encontrarlo. Había un 
coche de Google Street View aparcado junto a la puerta principal, un 
enorme apéndice coronado por una cámara en forma de balón de fútbol rojo 
y negro colocada sobre el techo. Pero cuando entré, con la llamativa tarjeta 
de «visitante» que me habían dado los de seguridad, deambulé sin rumbo, 
abochornada, por los laberintos de cubículos llenos de empleados de 
Google que, con auriculares en las orejas, tecleaban en sus ordenadores 
Apple. Tras una búsqueda azarosa (y sin mapa), por fin encontré la sala de 
conferencias asignada para la reunión, que debía durar todo el día, y me uní 
a la gente allí congregada. 

El encuentro, que se celebró en mayo de 2014, había sido organizado por 
Blaise Agüera y Arcas, un joven informático que acababa de dejar un alto 
cargo en Microsoft para incorporarse a Google con el fin de ayudar a dirigir 


las investigaciones sobre inteligencia artificial. Google nació en 1998 con 
un «producto»: un sitio web que empleaba un método nuevo y 
extraordinariamente logrado para buscar en internet. Con los años, Google 
ha evolucionado hasta convertirse en la empresa tecnológica más 
importante del mundo, y hoy ofrece una gran variedad de productos y 
servicios, como Gmail, Google Docs, Google Translate, YouTube, Android 
y muchos más que es probable que usted utilice a diario, así como otros de 
los que seguramente poca gente ha oído hablar. 

Los fundadores de Google, Larry Page y Sergey Brin, llevan mucho 
tiempo dando vueltas a la idea de crear una inteligencia artificial en los 
ordenadores, hasta el punto de que se ha convertido en uno de los 
principales objetivos de la compañía. En la última década, Google ha 
contratado a numerosos expertos en IA, entre ellos Ray Kurzweil, un 
conocido inventor y polémico futurista que promueve una idea a la que se 
ha llamado «Singularidad de la IA»: el momento, en un futuro próximo, en 
el que los ordenadores serán más inteligentes que los humanos. Google 
contrató a Kurzweil para que pudiera hacer realidad esta idea. En 2011, la 
empresa creó un grupo de investigación sobre IA llamado Google Brain; 
posteriormente ha adquirido una enorme variedad de empresas emergentes 
de IA, todas con nombres optimistas: Applied Semantics, DeepMind y 
Vision Factory, entre otras. 

En resumen, Google ha dejado de ser solo un portal de búsquedas por 
internet. Se está convirtiendo rápidamente en una empresa de JA aplicada. 
La IA es el pegamento que une los diversos productos, servicios y trabajos 
de investigación de Google y su empresa matriz, Alphabet. La aspiración 
suprema de la empresa queda reflejada en la declaración de objetivos 
original de su grupo de DeepMind: «Resolver la inteligencia y utilizarla 
para resolver todo lo demas».[1] 


Al y GEB 


Tenía muchas ganas de asistir a una reunión sobre IA en Google. Llevaba 
trabajando en varios aspectos de la IA desde que hice el posgrado, en los 
años ochenta, y me había impresionado mucho todo lo que Google había 
conseguido. También pensaba que podía aportar alguna idea. Pero tengo 
que reconocer que acudí solo como acompañante. El objetivo de la reunión 
era que un grupo escogido de investigadores de IA de Google pudiera 
mantener una conversación con Douglas Hofstadter, una leyenda del mundo 
de la IA y autor de un famoso libro con el críptico titulo de Gödel, Escher, 
Bach. Un eterno y grácil bucle o, para ser más breves, GEB.[2] Cualquier 
informático o aficionado a la informática probablemente ha oído hablar de 
él, lo ha leído o ha intentado leerlo. 

Escrito en los años setenta, GEB da salida a las numerosas pasiones 
intelectuales de Hofstadter: matemáticas, arte, música, lenguaje, humor y 
juegos de palabras, reunidas para abordar las trascendentales preguntas 
sobre cómo es posible que la inteligencia, el conocimiento y la propia 
conciencia, que son experiencias tan fundamentales del ser humano, surjan 
del sustrato no inteligente y no consciente que son las células biológicas. 
También aborda de qué manera los ordenadores podrían acabar adquiriendo 
inteligencia y autoconciencia. Es un libro extraordinario; no conozco 
ningún otro que se parezca lo más mínimo. Pese a no ser fácil de leer, fue 
un éxito de ventas y ganó el Premio Pulitzer y el National Book Award. 
Desde luego, GEB fue un libro que impulsó a muchos jóvenes a dedicarse a 
la IA. Entre ellos, yo misma. 

A principios de los ochenta me había licenciado en Matemáticas y vivía 
en Nueva York; daba clases en una escuela preparatoria, me sentía infeliz y 
trataba de averiguar qué quería hacer verdaderamente con mi vida. Descubrí 
GEB gracias a una crítica muy elogiosa en Scientific American y me 
apresuré a comprar el libro. Lo devoré en las semanas siguientes y me 
convencí no solo de que quería dedicarme a la investigación sobre IA, sino 


de que quería trabajar con Douglas Hofstadter. Nunca un libro me había 
causado tanta impresión ni había tenido tan claro mi rumbo profesional. 

En aquella época, Hofstadter era catedrático de Informática en la 
Universidad de Indiana, y mi utópico plan era solicitar el ingreso en el 
programa de doctorado en Informática, presentarme y convencer a 
Hofstadter para que me aceptara como estudiante. Solo había un pequeño 
inconveniente: nunca había asistido a ninguna clase de Informática. Había 
crecido entre ordenadores; mi padre era ingeniero informático en una 
empresa tecnológica de los años sesenta y, por puro hobby, construyó un 
servidor en el cuarto de estar familiar. El ordenador Sigma 2, del tamaño de 
un frigorífico, tenía un botón magnético que proclamaba «Rezo en 
FORTRAN»); y yo, de niña, estaba casi convencida de que de verdad rezaba 
en silencio por las noches, mientras la familia dormía. Como crecí en los 
años sesenta y setenta, aprendí un poco del lenguaje de moda en cada 
periodo: FORTRAN, luego BASIC, después Pascal; pero no sabía 
prácticamente nada de técnicas de programación propiamente dichas, y 
mucho menos de todas las demás cosas que debe saber alguien que quiere 
hacer un posgrado en Informática. 

Para acelerar mi plan, al acabar el curso académico dejé mi puesto de 
profesora, me mudé a Boston y me matriculé en cursos de iniciación a la 
informática para prepararme para mi nueva carrera. Un día, a los pocos 
meses de empezar mi nueva vida, mientras estaba en el campus del Instituto 
Tecnológico de Massachusetts (MIT) esperando a que empezara una clase, 
vi un cartel que anunciaba una conferencia que iba a pronunciar Douglas 
Hofstadter allí mismo dos días después. Me pareció increíble la suerte que 
había tenido. Fui a la conferencia, esperé mucho tiempo mi turno en medio 
de una multitud de admiradores y conseguí hablar con él. Me enteré de que 
estaba en pleno año sabático en el MIT y que después iba a marcharse de 
Indiana para trasladarse a la Universidad de Míchigan, en Ann Arbor. 


Para no extenderme: después de perseguirlo con cierta insistencia, 
convencí a Hofstadter para que me aceptara como ayudante de 
investigación, primero durante un verano y luego, durante los seis años 
siguientes, como alumna de posgrado, hasta obtener el doctorado en 
Informática por la Universidad de Míchigan. Hofstadter y yo hemos 
mantenido un estrecho contacto todos estos años y hemos debatido mucho 
sobre IA. Él conocía mi interés por las investigaciones de Google sobre IA 
y tuvo la amabilidad de invitarme a acompañarle a la reunión en la sede de 
la empresa. 


El ajedrez y el primer germen de duda 


El grupo de la semiescondida sala de conferencias estaba formado por una 
veintena de ingenieros de Google (además de Douglas Hofstadter y yo), 
todos ellos miembros de diversos equipos de IA de Google. La reunión 
comenzó, como era habitual, con la presentación de cada uno. Varios 
señalaron que lo que había impulsado su carrera en el campo de la IA había 
sido la lectura de GEB cuando eran jóvenes. Todos estaban entusiasmados y 
con curiosidad por saber lo que iba a decir el legendario Hofstadter sobre la 
IA. Él se levantó y tomó la palabra. «Tengo unas cuantas observaciones 
sobre la investigación de la IA en general y sobre lo que se hace aquí en 
Google en particular —su voz se llenó de pasión—. Estoy aterrorizado. 
Aterrorizado». 

Y continuó.[3] Comento que, cuando en los años setenta había empezado 
a trabajar en la IA, aquella era una perspectiva que, si bien resultaba 
apasionante, parecía estar tan lejos de hacerse realidad que no había 
«ningún peligro en el horizonte, ninguna sensación de que fuera 
verdaderamente a ocurrir». Crear máquinas con una inteligencia similar a la 
humana era una aventura intelectual de calado, un proyecto de investigación 
a largo plazo para el que se decía que faltaban por lo menos «cien premios 
nobel».[4] Hofstadter creía que, en principio, la IA era posible: «El 


“enemigo” eran personas como John Searle, Hubert Dreyfus y otros 
escépticos, que decían que era imposible. No entendían que un cerebro es 
un trozo de materia que se rige por leyes físicas y que el ordenador puede 
simular cualquier cosa: el nivel de neuronas, los neurotransmisores, etc. En 
teoría, se puede hacer». De hecho, las ideas de Hofstadter sobre la 
simulación de la inteligencia en varios planos —desde las neuronas hasta la 
conciencia— se abordaban con gran detalle en GEB y eran la base de sus 
investigaciones desde hacía décadas. Sin embargo, en la práctica, 
Hofstadter había pensado hasta poco tiempo antes que no había ninguna 
posibilidad de que una IA general «a nivel humano» llegara a hacerse 
realidad en vida suya (ni siquiera en la de sus hijos), asi que no le 
preocupaba mucho. 

Casi al final de GEB, Hofstadter presentaba una lista de «Diez preguntas 
y conjeturas» sobre la inteligencia artificial. He aquí una de ellas: «¿Habrá 
programas de ajedrez capaces de vencer a todo el mundo?» La hipótesis de 
Hofstadter era que no. «Quizá haya programas capaces de ganar a 
cualquiera en una partida, pero no serán exclusivamente programas de 
ajedrez. Serán programas de inteligencia general».[5] 

En la reunión de 2014 en Google, Hofstadter reconoció que se había 
«equivocado por completo». El rápido perfeccionamiento de los programas 
de ajedrez en los años ochenta y noventa había sembrado el primer germen 
de duda en su valoración de las posibilidades de la IA a corto plazo. 
Aunque el pionero de la IA Herbert Simon había predicho en 1957 que 
habría un programa de ajedrez campeón del mundo «en un plazo de diez 
años», a mediados de los años setenta, cuando Hofstadter estaba 
escribiendo GEB, los mejores programas informáticos de ajedrez no 
alcanzaban más que el nivel de un buen (no un gran) aficionado. Hofstadter 
se había hecho amigo de Eliot Hearst, campeón de ajedrez y profesor de 
Psicología, que había escrito mucho sobre las diferencias entre un jugador 
humano experto y un programa informático de ajedrez. Los experimentos 


demostraban que un jugador humano, para decidir una jugada, utiliza el 
reconocimiento rápido de patrones en el tablero, en vez de la búsqueda 
exhaustiva y a las bravas que emplean todos los programas de ajedrez. 
Durante una partida, los mejores jugadores humanos perciben una 
disposición de las piezas como «un tipo de posición» concreto que exige 
«un tipo de estrategia» determinado. Es decir, esos jugadores saben 
identificar rápidamente configuraciones y estrategias concretas como casos 
concretos de conceptos teóricos. Hearst afirmaba que, sin esa capacidad 
general de percibir patrones y reconocer conceptos abstractos, los 
programas de ajedrez nunca alcanzarían el nivel de los mejores jugadores 
humanos. A Hofstadter le convencieron los argumentos de Hearst. 

Sin embargo, en los años ochenta y noventa, los programas de ajedrez 
mejoraron de golpe, sobre todo por la gran velocidad que adquirieron los 
ordenadores. Aun así, los mejores programas seguían jugando de una forma 
muy poco humana: realizando una amplia búsqueda antes de decidir la 
siguiente jugada. A mediados de los noventa, la máquina Deep Blue de 
IBM, con un hardware especializado para jugar al ajedrez, alcanzó el nivel 
de Gran Maestro; en 1997 derrotó al entonces campeón mundial de ajedrez, 
Garry Kasparov, en un desafío a seis partidas. La maestría en el ajedrez, 
antes considerada la cumbre de la inteligencia humana, había sucumbido a 
la fuerza bruta. 


La música, el bastión de la humanidad 


Aunque la victoria de Deep Blue generó muchas muestras de inquietud en 
la prensa por el auge de las máquinas inteligentes, la «auténtica» IA parecía 
todavía muy lejana. Deep Blue sabía jugar al ajedrez, pero no podía hacer 
nada más. Hofstadter se había equivocado sobre eso, pero seguía 
considerando válidas las demás conjeturas de GEB, sobre todo la primera 
que había mencionado: 


PREGUNTA: ¿Alguna vez un ordenador compondrá música llena de belleza? 


CONJETURA: Sí, pero falta mucho. 


Y Hofstadter proseguía: 


La música es un lenguaje de emociones y, hasta que los programas no tengan emociones tan 
complejas como las nuestras, es imposible que un programa componga algo bello. Puede haber 
«falsificaciones» —imitaciones superficiales de la sintaxis de otra música anterior—, pero, 
pese a lo que en principio podría parecer, en la expresión musical hay mucho más que lo que 
pueden captar las reglas sintácticas. [...] Pensar [...] que quizá pronto seamos capaces de 
ordenar a una «caja de música» de mesa, preprogramada, fabricada en serie y comprada por 
correo por veinte dólares, que saque de sus circuitos estériles unas obras que podrían haber 
compuesto Chopin o Bach si hubieran vivido más tiempo es valorar de manera grotesca, 
vergonzosa y errónea las profundidades del espíritu humano.|[6] 


Hofstadter decía que esta conjetura era «una de las partes más importantes 
de GEB; me habría apostado la vida por ella». 

A mediados de los noventa, la seguridad de Hofstadter en su opinión 
sobre la IA volvió a tambalearse, esta vez muy en serio, cuando se encontró 
con un programa escrito por un músico, David Cope. El programa se 
llamaba Experimentos en Inteligencia Musical (en inglés, EMI, 
pronunciado tal cual). Cope, compositor y profesor de Música, había creado 
originalmente EMI para facilitar su propio trabajo mediante la composición 
automática de piezas según su estilo personal. Sin embargo, EMI se hizo 
famoso por crear obras al estilo de compositores clásicos como Bach y 
Chopin. EMI compone siguiendo una gran cantidad de reglas establecidas 
por Cope con el fin de construir una sintaxis general de composición. Estas 
reglas se aplican a numerosos ejemplos de la obra de un compositor 
concreto para crear una pieza nueva «al estilo» de ese compositor. 

Volviendo a nuestra reunión en Google, Hofstadter habló con una 
emoción extraordinaria de los contactos que había tenido con EMI: 

Me senté al piano y toqué una de las mazurcas de EMI «al estilo de Chopin». No sonaba 

exactamente como una obra suya, pero se parecía tanto a algo de Chopin y a una obra musical 

coherente que me perturbó en lo más hondo. Desde niño, la música me emociona y me 


conmueve hasta la médula. Y escucho cada pieza amada como un mensaje directo desde el 
corazón emocional del ser humano que la compuso. Es como si me permitiera entrar en lo más 


íntimo de su alma. Y tengo la sensación de que no hay nada más humano en el mundo que esa 
expresión musical. Nada. 


Después, Hofstadter habló de una conferencia que había pronunciado en la 
prestigiosa Escuela de Música Eastman en Rochester, Nueva York. Tras 
describir EMI, Hofstadter pidió a un pianista que tocara dos piezas y 
propuso al público —entre el que había varios profesores de Teoría Musical 
y Composición— que adivinara cuál de las dos era una mazurca (poco 
conocida) de Chopin y cuál había sido compuesta por EMI. Como explicó 
más tarde un miembro del público: «La primera mazurca tenía gracia y 
encanto, pero no la enorme inventiva y fluidez de un “verdadero Chopin”. 
[...] Estaba claro que la segunda era el Chopin auténtico, con una melodía 
lírica, grandes y elegantes modulaciones cromáticas y una forma natural y 
equilibrada».[7] Es lo que pensaron muchos de los profesores presentes, que, 
para asombro de Hofstadter, votaron que la primera pieza era de EMI y la 
segunda del «verdadero Chopin». Las respuestas acertadas eran las 
contrarias. 

En la sala de conferencias de Google, Hofstadter hizo una pausa y nos 
miró a la cara. Nadie dijo una palabra. Por fin volvió a hablar. «EMI me 
aterrorizó. Me aterrorizó. Lo detesté, me pareció una horrible amenaza. Una 
amenaza que podía destruir lo que más valoraba de la humanidad. Creo que 
EMI fue el ejemplo supremo de los temores que me provoca la inteligencia 
artificial». 


Google y la Singularidad 


Luego, Hofstadter habló de la enorme ambivalencia que sentía sobre lo que 
Google estaba tratando de hacer con la IA: coches sin conductor, 
reconocimiento del habla, comprensión del lenguaje natural, traducción 
entre idiomas, arte generado por ordenador, composición musical y muchas 
más cosas. La preocupación de Hofstadter se agudizaba porque Google 
había adoptado las ideas de Ray Kurzweil sobre la Singularidad, según las 


cuales la IA, impulsada por su capacidad de perfeccionarse y educarse a si 
misma, pronto alcanzaría a la inteligencia humana y, después, la superaría. 
Parecía que Google estaba haciendo todo lo posible para acelerar esa visión. 
Aunque Hofstadter tenía serias dudas sobre la premisa de la Singularidad, 
reconoció que las predicciones de Kurzweil le inquietaban. «Me 
aterrorizaban las posibilidades. Era muy escéptico, pero, al mismo tiempo, 
pensaba que, si bien su escala temporal podía estar equivocada, quizá 
tuviera razón. Y entonces nos pillaria totalmente desprevenidos. 
Pensaremos que no pasa nada y, de repente, antes de que nos demos cuenta, 
los ordenadores serán más inteligentes que nosotros». 

Si sucede esto, «nos sustituirán. Seremos reliquias. Nos dejarán tirados». 

Y añadió: «Quizá suceda, pero no quiero que suceda pronto. No quiero 
que mis hijos se queden tirados». 

Hofstadter terminó su charla con una referencia directa a los ingenieros 
de Google que estaban presentes y le escuchaban atentamente: «Me parece 
muy aterrador, muy preocupante, muy triste, y me parece terrible, 
horroroso, extraño, desconcertante, que la gente se precipite a ciegas y 
delirantemente a crear estas cosas». 


¿Por qué está aterrorizado Hofstadter? 


Miré a mi alrededor. La gente parecía confusa, incluso avergonzada. Para 
aquellos investigadores de IA de Google, todo aquello no les parecía 
aterrador en absoluto. De hecho, no era nada nuevo. Cuando Deep Blue 
derrotó a Kasparov, cuando EMI empezó a componer mazurcas al estilo de 
Chopin y cuando Kurzweil escribió su primer libro sobre la Singularidad, 
muchos de aquellos ingenieros estaban en el instituto, probablemente 
leyendo GEB y encantados con él, aunque sus predicciones sobre IA se 
hubieran quedado un poco anticuadas. Si trabajaban en Google era 
precisamente para hacer realidad la IA, no a cien años vista, sino ya, lo 
antes posible. No entendían por qué Hofstadter estaba tan nervioso. 


Los que trabajan en el campo de la IA están acostumbrados a los temores 
de las personas ajenas a él, seguramente influidas por todas las películas de 
ciencia ficción en las que aparecen máquinas superinteligentes que se 
vuelven malvadas. Los investigadores también conocen bien el miedo a que 
una IA cada vez más sofisticada sustituya a los seres humanos en ciertos 
trabajos, a que la IA aplicada a grandes conjuntos de datos pueda anular la 
privacidad y permitir una sutil discriminación y a que los sistemas de IA 
mal comprendidos y autorizados a tomar decisiones autónomas puedan 
causar estragos. 

Pero el terror de Hofstadter se debía a algo totalmente distinto. No era 
miedo a que la IA acabara siendo demasiado inteligente, demasiado 
invasiva, demasiado maligna o incluso demasiado útil. Lo que le aterraba 
era que la inteligencia, la creatividad, las emociones e incluso la propia 
conciencia fueran demasiado fáciles de crear, que los aspectos de la 
humanidad que más valiosos le parecían acabaran siendo una mera «serie 
de trucos», que un conjunto superficial de algoritmos de fuerza bruta 
pudiera explicar el espíritu humano. 

Como dejaba muy claro en GEB, Hofstadter tiene la firme convicción de 
que la mente, con todas sus características, surge en su totalidad del sustrato 
físico del cerebro y el resto del cuerpo, además de a través de la interacción 
del cuerpo con el mundo físico. No hay nada inmaterial o incorpóreo que 
esté oculto. Su preocupación, en realidad, es la complejidad. Teme que la 
IA nos enseñe que las cualidades humanas que más valoramos son 
lamentablemente fáciles de mecanizar. Como me explicó Hofstadter 
después de la reunión, refiriéndose a Chopin, Bach y otros modelos de 
humanidad: «Si unas mentes como las suyas, de infinita sutileza y 
complejidad y hondura emocional, se pudieran trivializar mediante un 
pequeño chip, se destruiría mi idea de lo que es la humanidad». 


Me siento confusa 


Tras las palabras de Hofstadter, hubo un breve debate en el que los 
asistentes, desconcertados, le pidieron que explicara mejor sus temores 
sobre la IA y sobre Google en particular. Pero seguían existiendo problemas 
de comunicación. La reunión continuó con presentaciones de proyectos, 
debates en grupo, pausas para el café, lo de siempre; y ninguna de las cosas 
que se dijeron tenía realmente nada que ver con las observaciones de 
Hofstadter. Casi al final del encuentro, Hofstadter preguntó a los 
participantes qué pensaban sobre el futuro inmediato de la IA. Varios 
investigadores de Google predijeron que en los próximos treinta años 
seguramente aparecería una IA general tan capaz como un humano, en gran 
parte gracias a los avances de Google en el método del «aprendizaje 
profundo» inspirado en el cerebro. 

Salí de la reunión muy confundida. Sabía que a Hofstadter le 
preocupaban algunas de las cosas que había escrito Kurzweil sobre la 
Singularidad, pero hasta entonces nunca había visto hasta qué punto estaba 
conmovido y angustiado. También sabía que Google estaba impulsando las 
investigaciones sobre IA, pero me sorprendió lo optimistas que eran varios 
asistentes sobre el tiempo que iba a tardar la IA en alcanzar una capacidad 
«humana» general. Hasta entonces, mi opinión era que la IA había 
progresado mucho en algunos ámbitos muy concretos, pero que estaba 
todavía muy lejos de alcanzar la amplia inteligencia general de los 
humanos; no lo iba a conseguir en un siglo, y mucho menos en treinta años. 
Y pensaba que quienes creían lo contrario estaban infravalorando 
enormemente la complejidad de la inteligencia humana. Había leído los 
libros de Kurzweil y me habían parecido bastante ridículos. Sin embargo, 
todos los comentarios que había oído en la reunión, de personas a las que 
respetaba y admiraba, me obligaron a examinar con una mirada crítica mis 
opiniones. Me parecía que los investigadores de la IA estaban 
minusvalorando a los humanos, pero ¿no estaría yo subestimando también 
el poder y las posibilidades de la IA actual? 


En los meses posteriores, empecé a prestar más atención al debate sobre 
estas cuestiones. Empecé a darme cuenta de la montaña de artículos, 
entradas de blog y libros enteros de autores destacados que de repente nos 
estaban diciendo que debíamos empezar a preocuparnos ya por los peligros 
que representaba la IA «sobrehumana». En 2014, el físico Stephen 
Hawking proclamó: «El desarrollo de la inteligencia totalmente artificial 
podría significar el fin de la raza humana».[8] Ese mismo año, el empresario 
Elon Musk, fundador de las empresas Tesla y SpaceX, afirmó que la 
inteligencia artificial era probablemente «la mayor amenaza contra nuestra 
existencia» y que «con la inteligencia artificial estamos invocando al 
demonio».[9] El cofundador de Microsoft, Bill Gates, se mostró de acuerdo: 
«Coincido con lo que dicen Elon Musk y otros a este respecto y no entiendo 
por qué hay gente que no está preocupada».[10] Sorprendentemente, el libro 
del filósofo Nick Bostrom Superinteligencia, sobre los posibles riesgos de 
que las máquinas acaben siendo más inteligentes que los humanos, fue todo 
un éxito de ventas, a pesar de su estilo árido y pesado. 

Otros destacados pensadores discrepaban. Sí, decían, debemos garantizar 
que los programas de IA sean seguros y no puedan hacer daño a los seres 
humanos, pero las afirmaciones de que puede haber una IA sobrehumana a 
corto plazo son muy exageradas. El empresario y activista Mitchell Kapor 
opinó: «La inteligencia humana es un fenómeno maravilloso, sutil y mal 
conocido. No hay peligro de que se duplique a corto plazo».[11] El experto 
en robótica y exdirector del laboratorio de IA del MIT Rodney Brooks 
coincidió cuando dijo que «sobrevaloramos enormemente las capacidades 
de las máquinas, las actuales y las de las próximas décadas».[12] El 
psicólogo e investigador sobre IA Gary Marcus llegó a afirmar que, en el 
intento de crear una «IA fuerte» —es decir, una IA general tan capaz como 
un humano—, «no ha habido casi ningún avance».[13] 

Podría seguir mucho tiempo citando declaraciones contrapuestas. En 
resumen, lo que he descubierto es que el campo de la IA está lleno de 


confusión. O se ha avanzado mucho, o casi nada. O estamos a un tiro de 
piedra de la «verdadera» IA, o todavía faltan siglos. La IA resolverá todos 
nuestros problemas, nos dejará a todos sin trabajo, destruirá la raza humana 
o degradará nuestra humanidad. Es una campaña noble o una forma de 
«invocar al demonio». 


De qué trata este libro 


Este libro nació de mi intento de comprender la verdadera situación de la 
inteligencia artificial: qué pueden hacer hoy los ordenadores y qué podemos 
esperar de ellos en las próximas décadas. Los estimulantes comentarios de 
Hofstadter en la reunión de Google fueron una especie de llamada de 
atención para mí, igual que la seguridad con la que respondieron los 
investigadores de Google sobre el futuro inmediato de la IA. En los 
capítulos que siguen, voy a tratar de explicar en qué punto se encuentra la 
IA y de aclarar sus diferentes —y a veces contradictorios— objetivos. Para 
ello, examinaré cómo actúan realmente algunos de los sistemas de IA más 
importantes e investigaré sus logros y sus limitaciones. Estudiaré hasta qué 
punto los ordenadores actuales pueden hacer cosas que creemos que exigen 
un alto grado de inteligencia: vencer a los humanos en los juegos más 
exigentes desde el punto de vista intelectual, traducir de un idioma a otro, 
responder a preguntas complejas, conducir vehículos por terrenos difíciles. 
Y examinaré cómo se las arreglan en las cosas que damos por sentadas, las 
tareas cotidianas que los seres humanos hacemos sin pensar: identificar 
caras y objetos en imágenes, entender el lenguaje hablado y escrito y 
utilizar el sentido común más básico. 

También intentaré encontrar sentido a las preguntas generales que han 
dado lugar a los debates sobre la IA desde su nacimiento. ¿A qué nos 
referimos cuando hablamos de inteligencia «general tan capaz como un 
humano» o incluso de «inteligencia sobrehumana»? ¿La IA actual está 
próxima a ese nivel o en camino de alcanzarlo? ¿Qué peligros hay? ¿Qué 


aspectos de nuestra inteligencia valoramos más y hasta qué punto una IA 
tan capaz como un humano pondría en tela de juicio nuestras ideas sobre lo 
que nos hace humanos? En palabras de Hofstadter, ¿hasta qué punto 
debemos estar aterrorizados? 

Este libro no es un estudio ni una historia general de la inteligencia 
artificial. Es una exploración detallada de algunos de los métodos de IA que 
probablemente afectan a nuestra vida —o pronto lo harán— y de los 
proyectos de IA que más cerca están, tal vez, de cuestionar nuestro sentido 
de la singularidad humana. Mi objetivo es que los lectores participen de mis 
indagaciones y que, como yo, intenten hacerse una idea más clara de lo que 
se ha conseguido en este campo y de lo mucho que queda por hacer antes de 
que nuestras máquinas puedan defender su propia humanidad. 
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Las raíces de la 
inteligencia artificial 


Dos meses y diez hombres en Dartmouth 


E, sueño de crear una máquina inteligente —tan inteligente como los 
humanos o más— nació hace siglos, pero empezó a formar parte de la 
ciencia moderna con la aparición de los ordenadores digitales. En realidad, 
las ideas que dieron lugar a los primeros ordenadores programables 
surgieron de los intentos de los matemáticos de interpretar el pensamiento 
humano, en especial la lógica, como un proceso mecánico de 
«manipulación de símbolos». Los ordenadores digitales son esencialmente 
unos manipuladores de símbolos que juguetean con combinaciones de los 
símbolos 0 y 1. Varios pioneros de la informática, como Alan Turing y John 
von Neumann, pensaban que había fuertes analogías entre los ordenadores y 
el cerebro humano, y les parecía obvio que la inteligencia humana podía 
reproducirse en programas informáticos. 

La mayoría de los expertos en inteligencia artificial atribuyen la 
fundación oficial de esta materia a un pequeño seminario celebrado en 1956 
en el Dartmouth College y organizado por un joven matemático llamado 
John McCarthy. 

En 1955, McCarthy, que tenía veintiocho años, se incorporó a la Facultad 
de Matemáticas de Dartmouth. Cuando era estudiante había aprendido algo 


sobre psicología y el incipiente campo de la «teoría de autómatas» (que más 
tarde se convertiría en la informática), y le había interesado la idea de crear 
una máquina pensante. En el Departamento de Matemáticas de Princeton, 
McCarthy conoció a un compañero, Marvin Minsky, que compartía su 
fascinación por las posibilidades de los ordenadores inteligentes. Después 
de graduarse, McCarthy trabajó brevemente en los laboratorios Bell y en 
IBM, donde colaboró, respectivamente, con Claude Shannon, inventor de la 
teoría de la información, y con Nathaniel Rochester, un innovador ingeniero 
eléctrico. Ya en Dartmouth, McCarthy convenció a Minsky, Shannon y 
Rochester para que le ayudaran a organizar «un estudio de dos meses y diez 
hombres sobre inteligencia artificial que se llevaría a cabo durante el verano 
de 1956».[14] El término inteligencia artificial lo inventó McCarthy; quería 
distinguir este campo de otro proyecto relacionado llamado cibernética.[15] 
Con el tiempo, McCarthy reconoció que el nombre no le gustaba a nadie — 
al fin y al cabo, el objetivo era una inteligencia genuina, no «artificial»—, 
pero «tenía que llamarlo de alguna manera, así que lo llamé “inteligencia 
artificial”».[16] 

Los cuatro organizadores presentaron una propuesta a la Fundación 
Rockefeller y solicitaron que les financiaran el taller estival. El estudio que 
proponían se basaba en «la hipótesis de que todos los aspectos del 
aprendizaje o cualquier otra característica de la inteligencia pueden en 
principio describirse con tanta precisión que es posible hacer que una 
maquina los imite».[17] La propuesta enumeraba una serie de temas de 
debate —procesamiento del lenguaje natural, redes neuronales, aprendizaje 
automático, conceptos abstractos y razonamiento, creatividad— que han 
seguido definiendo esta materia hasta hoy. 

Aunque los ordenadores más avanzados de 1956 eran aproximadamente 
un millón de veces más lentos que los teléfonos móviles de nuestros días, 
McCarthy y sus colegas eran optimistas y pensaban que la IA estaba al 
alcance de la mano: «Creemos que podrá haber avances considerables en 


uno o varios de estos problemas si un grupo de científicos minuciosamente 
escogido se pasa el verano trabajando para conseguirlo».[18] 

Pronto surgieron obstáculos que hoy le resultarían familiares a cualquiera 
que quiera organizar un taller científico. La Fundación Rockefeller solo 
aportó la mitad del dinero solicitado, y a McCarthy le costó más de lo que 
creía convencer a los participantes de que acudieran y se quedaran, por no 
hablar de conseguir que se pusieran de acuerdo en algo. Hubo muchos 
debates interesantes, pero poca coherencia. Como suele ocurrir en este tipo 
de reuniones, «cada uno tenía una idea diferente, un sólido ego y mucho 
entusiasmo por su propio plan».[19 Pese a todo, el verano de la IA en 
Dartmouth produjo algunos resultados muy importantes. Se dio nombre al 
campo de investigación y se esbozaron sus objetivos generales. Los que 
pronto serían los «cuatro grandes» pioneros en la materia —McCarthy, 
Minsky, Allen Newell y Herbert Simon— se reunieron y empezaron a 
planear el futuro. Y, por alguna razón, los cuatro salieron de la reunión con 
enorme optimismo sobre las perspectivas para su campo. A principios de 
los sesenta, McCarthy fundó el Proyecto de Inteligencia Artificial de 
Stanford, con «el objetivo de construir una máquina totalmente inteligente 
antes de que transcurriera una década».[20] Más o menos por aquel 
entonces, el futuro premio nobel Herbert Simon predijo: «Las máquinas 
serán capaces, dentro de veinte años, de hacer cualquier tarea que pueda 
hacer un hombre».[21 Poco después, Marvin Minsky, fundador del 
Laboratorio de Inteligencia Artificial del MIT, pronosticó que «dentro de 
una generación [...], los problemas de crear una “inteligencia artificial” 
estarán esencialmente resueltos».[22] 


Definiciones y manos a la obra 


Ninguna de estas predicciones se ha hecho realidad todavía. Por 
consiguiente, ¿cuánto nos falta hasta el objetivo de construir una «máquina 
totalmente inteligente»? ¿Esa máquina necesitaría un trabajo de ingeniería 


inversa del cerebro humano en toda su complejidad, o existe un atajo, un 
conjunto de hábiles algoritmos aún desconocidos, capaz de producir lo que 
consideramos inteligencia total? ¿Y qué significa «inteligencia total»? 

«Define tus términos... o nunca nos entenderemos».[23] Este consejo del 
filósofo del siglo xvim Voltaire plantea un reto a cualquiera que hable de 
inteligencia artificial, porque el concepto central —inteligencia— sigue 
estando mal definido. Marvin Minsky acuñó la expresión palabra maletaj24] 
para calificar términos del tipo de inteligencia y sus muchos parientes, 
como pensamiento, cognición, conciencia y emoción. Cada uno de ellos 
está lleno como una maleta de un batiburrillo de significados diferentes. La 
inteligencia artificial ha heredado este problema, puesto que tiene distintos 
significados en diferentes contextos. 

La mayoría de la gente estará de acuerdo en que los humanos son 
inteligentes y las motas de polvo no. Asimismo, en general creemos que los 
humanos son más inteligentes que los gusanos. En cuanto a la inteligencia 
humana, el cociente intelectual se mide en una única escala, pero también 
hablamos de las distintas dimensiones de la inteligencia: emocional, verbal, 
espacial, lógica, artística, social, etc. Por consiguiente, la inteligencia puede 
ser binaria (algo es o no es inteligente), estar en un continuo (una cosa es 
más inteligente que otra) o ser multidimensional (alguien puede tener 
mucha inteligencia verbal pero escasa inteligencia emocional). La verdad es 
que la palabra inteligencia es una maleta demasiado llena con la cremallera 
a punto de romperse. 

Para bien o para mal, el ámbito de la IA, en general, ha pasado por alto 
estas distinciones. En lugar de ello se ha centrado en dos facetas: la 
científica y la práctica. Desde el punto de vista científico, los investigadores 
de la IA estudian los mecanismos de la inteligencia «natural» (es decir, 
biológica) para tratar de integrarla en los ordenadores. Desde el punto de 
vista práctico, los propulsores de la IA solo quieren crear programas 
informáticos capaces de llevar a cabo las tareas asignadas tan bien como los 


humanos o mejor, sin preocuparse de si esos programas «piensan» 
verdaderamente como piensan los humanos. Cuando se pregunta a quienes 
trabajan en IA si sus motivaciones son prácticas o científicas, muchos 
contestan en broma que depende de quién los financie. 

En un informe reciente sobre el estado actual de la IA, un comité de 
investigadores de renombre definió este campo como «una rama de la 
informática que estudia las propiedades de la inteligencia a base de 
sintetizar inteligencia».[25] Un poco en círculo, sí. Pero ese mismo comité 
reconoció que es difícil definir el campo y que eso puede ser positivo: «La 
falta de una definición precisa y universalmente aceptada de la IA 
probablemente ha ayudado a que el campo crezca, se expanda y avance 
cada vez a más velocidad».¡26] Además, señalaba el documento, «los 
profesionales, investigadores y desarrolladores de la IA actúan guiados por 
un sentido aproximado del rumbo que deben seguir y por la obligación de 
“ponerse manos a la obra”». 


Una anarquía de enfoques 


En el seminario de Dartmouth de 1956, los participantes expresaron 
diferentes opiniones sobre el enfoque que convenía adoptar para desarrollar 
la TA. Algunos —sobre todo los matemáticos— propugnaron la lógica 
matemática y el razonamiento deductivo como lenguaje del pensamiento 
racional. Otros defendían los métodos inductivos, en los que los programas 
extraen estadísticas de los datos y utilizan la probabilidad para abordar la 
incertidumbre. Y otros eran firmes partidarios de inspirarse en la biología y 
la psicología para crear programas que emularan el cerebro. Lo 
sorprendente, quizá, es que las discusiones entre los defensores de estos 
distintos puntos de vista hayan llegado hasta nuestros días. Y cada método 
ha generado su propia colección de principios y técnicas, reforzada por 
conferencias y revistas especializadas y con escasa comunicación entre las 
subespecialidades. Un estudio reciente sobre IA lo resumía así: «Dado que 


no comprendemos a fondo la inteligencia ni sabemos cómo producir una IA 
general, para hacer verdaderos avances, en lugar de cerrar vías de 
exploración, deberíamos asumir la “anarquía de métodos” de la IA».[27] 

Sin embargo, desde la pasada década, hay una familia de métodos de IA 
—denominada aprendizaje profundo (o redes neuronales profundas)— que 
ha superado esa anarquía y se ha convertido en el paradigma dominante de 
la IA. Es más, en muchos medios de comunicación de masas, el término 
inteligencia artificial, en sí, significa hoy «aprendizaje profundo». Es una 
equivocación desafortunada que nos obliga a aclarar la distinción. La IA es 
un campo que abarca una gran variedad de enfoques con el propósito de 
crear máquinas dotadas de inteligencia. El aprendizaje profundo no es más 
que uno de ellos. En realidad, el aprendizaje profundo es uno de los 
numerosos métodos existentes en el campo del aprendizaje automático, un 
subcampo de la IA en el que las máquinas «aprenden» de los datos o de sus 
propias «experiencias». Para entender mejor estas distinciones, es 
importante comprender una división filosófica que se produjo en los 
primeros dias de la investigación sobre IA: la división entre las llamadas IA 
simbólica e IA subsimbólica. 


IA simbólica 


En primer lugar, veamos la IA simbólica. El conocimiento de un programa 
de IA simbólica está formado por palabras o frases (los «símbolos»), 
normalmente comprensibles para un ser humano, además de reglas con 
arreglo a las cuales el programa combina y procesa esos símbolos para 
hacer la tarea asignada. 

Pondré un ejemplo. Uno de los primeros programas de IA se llamaba 
nada menos que Solucionador General de Problemas, GPS en sus siglas en 
inglés.[28] (Lamento la confusión de siglas; este solucionador fue muy 
anterior al GPS de la geolocalización, o sistema de posicionamiento global). 
El GPS podía resolver problemas como el de «misioneros y caníbales», con 


el que quizá se haya encontrado usted de niño. En este conocido acertijo, 
tres misioneros y tres caníbales tienen que cruzar un río, pero en su barca 
solo caben dos personas. Si en algún momento hay más caníbales 
(hambrientos) que misioneros (de aspecto apetitoso) en una de las dos 
orillas del río... se pueden imaginar lo que pasa. ¿Cómo consiguen los seis 
cruzar el río intactos? 

Los creadores del Solucionador General de Problemas, los científicos 
cognitivos Herbert Simon y Allen Newell, grabaron a varios estudiantes 
mientras «pensaban en voz alta» tratando de resolver este y otros problemas 
lógicos, y diseñaron su programa para que imitara lo que consideraban los 
procesos mentales de los estudiantes. 

No voy a entrar en detalles sobre cómo funcionaba el GPS, pero se puede 
ver su carácter simbólico en cómo estaban codificadas las instrucciones del 
programa. Para plantear el problema, un humano escribiría un código 
parecido a este: 

ESTADO ACTUAL: 


ORILLA-IZQUIERDA = [3 MISIONEROS, 3 CANÍBALES, 1 BARCA] 
ORILLA-DERECHA = [vacía] 


ESTADO DESEADO: 
ORILLA-IZQUIERDA = [VACiA] 
ORILLA-DERECHA = [3 MISIONEROS, 3 CANÍBALES, 1 BARCA] 


En lenguaje humano, estas lineas representan el hecho de que al principio la 
orilla izquierda del rio «contiene» tres misioneros, tres canibales y una 
barca, mientras que la orilla derecha no contiene nada de eso. El estado 
deseado representa el objetivo del programa: trasladar a todos a la orilla 
derecha del rio. 

En cada paso de su procedimiento, el GPS intenta cambiar su estado 
actual para que se aproxime mas al estado deseado. En su código, el 
programa tiene «operadores» (en forma de subprogramas) capaces de 
transformar el estado actual en un nuevo estado, así como «reglas» que 


codifican los límites de la tarea. Por ejemplo, hay un operador que traslada 
un número determinado de misioneros y caníbales de un lado a otro del río: 


TRASLADAR (#MISIONEROS, HCANÍBALES, DE-LADO A-LADO) 


Las palabras dentro de los paréntesis se llaman argumentos, y el programa, 
cuando está ejecutándose, sustituye esas palabras por números u otras 
palabras. Es decir, #MISIONEROS se sustituye por el numero de 
misioneros que hay que trasladar, #CANIBALES por el número de 
caníbales que hay que trasladar y DE-LADO y A-LADO se sustituyen por 
«ORILLA-IZQUIERDA» u «ORILLA-DERECHA» dependiendo de la 
orilla desde la que haya que trasladar a los misioneros y los caníbales. El 
programa incluye, codificado, el hecho de que el barco se desplaza junto 
con los misioneros y los caníbales. 

Antes de poder aplicar este operador con valores específicos que 
sustituyan a los argumentos, el programa debe comprobar sus reglas 
codificadas; por ejemplo, el máximo número de personas que pueden 
trasladarse a la vez es dos y el operador no se puede usar si el resultado va a 
ser que haya más caníbales que misioneros en una orilla. 

Aunque los símbolos representan conceptos interpretables por un ser 
humano, como «misioneros», «caníbales», «barco» y «orilla izquierda», el 
ordenador que ejecuta el programa, por supuesto, no conoce el significado 
de esos símbolos. Podríamos sustituir «MISIONEROS» por «Z372B» o 
cualquier otra Cadena sin sentido en todos los casos y el programa 
funcionaría exactamente igual. Esa es una de las cosas a las que se refiere el 
término general en Solucionador General de Problemas. Para el ordenador, 
el «significado» de los símbolos deriva de las formas en que se pueden 
combinar, relacionar y manejar. 

Los defensores del enfoque simbólico de la IA sostienen que, para que 
los ordenadores sean inteligentes, no es necesario construir unos programas 
que imiten el cerebro, sino que es posible capturar totalmente la inteligencia 


general con un programa apropiado de procesamiento de símbolos. El 
funcionamiento de un programa así sería mucho más complejo que el 
ejemplo de misioneros y caníbales, es cierto, pero seguiría consistiendo en 
símbolos, combinaciones de símbolos, y reglas y operaciones con símbolos. 
La IA simbólica del tipo del GPS dominó el campo durante las tres 
primeras décadas, sobre todo en forma de sistemas expertos, en los que 
unos expertos humanos concebían reglas para que los programas 
informáticos las utilizaran en tareas como el diagnóstico médico y la toma 
de decisiones legales. Hay varias ramas activas de la IA que siguen 
empleando la IA simbólica; describiré algunos ejemplos más adelante, 
sobre todo en los debates sobre las aproximaciones de la IA al 
razonamiento y el sentido común. 


IA subsimbólica 


La IA simbólica de perceptrones se inspiró originalmente en la lógica 
matemática y en cómo describía la gente sus procesos de pensamiento 
consciente. En cambio, los enfoques subsimbólicos de la IA se inspiraban 
en la neurociencia e intentaban captar los procesos de pensamiento, a veces 
inconscientes, que sirven de base de lo que algunos denominan percepción 
rápida, como el reconocimiento facial o la identificación de palabras 
habladas. Los programas subsimbólicos de IA no contienen un lenguaje 
comprensible para los humanos como el que vimos en el ejemplo de 
misioneros y caníbales. Un programa subsimbólico es esencialmente un 
montón de ecuaciones, una maraña de operaciones numéricas a menudo 
difíciles de interpretar. Como explicaré enseguida, estos sistemas están 
diseñados para que, a partir de los datos, aprendan a ejecutar una tarea. 
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Figura 1. A, una neurona del cerebro; B, un perceptron simple. 


Uno de los primeros ejemplos de programa de IA subsimbólico inspirado 
en el cerebro fue el perceptrón, inventado a finales de los años cincuenta 
por el psicólogo Frank Rosenblatt.[29] Para nuestros oídos modernos, el 
término perceptrón puede sonar un poco a la ciencia ficción de aquellos 
años (como veremos, pronto se le unieron cognitrón y neocognitrón), pero 
el perceptron fue un hito importante en la IA y fue el influyente bisabuelo 
de la herramienta más eficaz de la IA moderna, las redes neuronales 
profundas. 

Para inventar los perceptrones, Rosenblatt se inspiró en la forma que 
tienen las neuronas de procesar la información. Una neurona es una célula 
del cerebro que recibe estímulos eléctricos o químicos de otras neuronas 
conectadas a ella. Dicho en pocas palabras, una neurona suma todos los 
datos que recibe de otras neuronas y, si la suma total alcanza un umbral 
determinado, la neurona se activa. Es importante destacar que las distintas 
conexiones (sinapsis) de otras neuronas a una neurona concreta tienen 
distinta potencia; para Calcular el total de los datos recibidos, la neurona da 
más peso a las de las conexiones más fuertes que a las de las más débiles. 
Los neurocientíficos creen que los ajustes en función de la fuerza de las 
conexiones entre neuronas son una parte fundamental del aprendizaje en el 
cerebro. 


Para un informático (o, en el caso de Rosenblatt, un psicólogo), el 
procesamiento de la información en las neuronas puede simularse mediante 
un programa informático —un perceptrón— con varias entradas numéricas 
y una salida. En la figura 1 se ilustra la analogía entre una neurona y un 
perceptrón. La figura 1A muestra una neurona, con sus dendritas 
ramificadas (las fibras que llevan las informaciones a la célula), el cuerpo 
celular y el axón (es decir, el canal de salida) etiquetados. La figura 1B 
muestra un perceptrón simple. El perceptrón, de forma análoga a la 
neurona, suma sus datos y, si la suma resultante es igual o superior al 
umbral del perceptrón, este emite el valor uno («se activa»); si no es así, 
emite el valor cero (no «se activa»). Para simular las distintas fuerzas de las 
conexiones a una neurona, Rosenblatt propuso que se asignara un peso 
numérico a cada una de las informaciones que entran en un perceptrón, de 
forma que cada elemento que entra se multiplica por su peso antes de 
añadirse a la suma. El umbral de un perceptrón no es más que un número 
establecido por el programador (o, como veremos, aprendido por el propio 
perceptrón). 
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Figura 2. Ejemplos de cifras manuscritas. 


En resumen, un perceptrón es un simple programa que decide entre un sí 
y un no (uno o cero) en función de si la suma de los datos que recibe, 
ponderados, alcanza un umbral determinado. Probablemente todos tomamos 
decisiones de este tipo. Por ejemplo, quizá varios amigos nos dicen cuánto 
les ha gustado una película, pero nos fiamos más del gusto de algunos que 
del de otros. Si la cantidad total de «entusiasmo de los amigos» —que da 
más peso a los amigos de los que más confiamos— es suficientemente alta 
(es decir, superior a algún umbral inconsciente), decidimos ir al cine. Así 
decidiría un perceptrón ir o no al cine, si tuviera amigos. 

Inspirándose en las redes de neuronas del cerebro, Rosenblatt propuso 
que las redes de perceptrones pudieran ejecutar tareas visuales como el 
reconocimiento de caras y objetos. Para hacernos una idea de cómo podrían 
hacerlo, vamos a ver cómo se podría usar un perceptrón para una tarea 
visual concreta: reconocer cifras manuscritas como las de la figura 2. 

En concreto, vamos a diseñar un perceptrón que sea detector de ochos, es 
decir, que emita un uno si los datos que recibe proceden de una imagen que 
representa un ocho, y que emita un cero si la imagen representa alguna otra 
cifra. Para diseñar un detector de este tipo hay que (1) averiguar cómo 
convertir una imagen en un conjunto de informaciones numéricas y (2) 
determinar los números que se van a usar para la ponderación y el umbral 
del perceptrón, de modo que dé la emisión correcta (uno en el caso de ocho; 
cero en el caso de otras cifras). Voy a explicar algunos detalles al respecto 
porque más adelante, cuando hable sobre redes neuronales y sus 
aplicaciones en visión artificial, volverán a aparecer muchas de estas 
mismas ideas. 


Las informaciones que entran en nuestro 
perceptrón 


La figura 3A muestra un ocho manuscrito ampliado. Cada elemento de la 
cuadrícula es un píxel con un valor numérico de «intensidad»: los 


cuadrados blancos tienen una intensidad de cero, los negros de uno y los 
grises están entre los dos. Supongamos que las imágenes que damos a 
nuestro perceptrón se han ajustado para que tengan el mismo tamaño que 
esta: 18 x 18 píxeles. La figura 3B ilustra un perceptrón diseñado para 
reconocer los ochos. Este perceptrón tiene 324 entradas (es decir, 18 x 18), 
cada una de las cuales corresponde a uno de los píxeles de la cuadrícula de 
18 x x 18 píxeles. En una imagen como la de la figura 3A, cada entrada del 
perceptrón se ajusta a la intensidad del píxel correspondiente. Cada entrada 
tendría su propio valor de ponderación (no mostrado en la figura). 
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Figura 3. Ilustración de un perceptron que reconoce un ocho manuscrito. Cada píxel de la 
imagen de 18 x 18 píxeles corresponde a una entrada de información del perceptrón, de 
modo que hay 324 (= 18 x 18) entradas. 


Aprendizaje de los pesos y umbrales del 
perceptrón 


A diferencia del Solucionador General de Problemas, el sistema simbólico 
que describí más arriba, un perceptrón no tiene unas reglas explícitas para 
ejecutar su tarea; todo su «conocimiento» está codificado en los números 
que constituyen sus pesos y umbrales. En sus diversos ensayos, Rosenblatt 
demostró que, dados los valores correctos de peso y umbral, un perceptrón 


como el de la figura 3B puede llevar a cabo bastante bien tareas de 
percepción como el reconocimiento de cifras manuscritas sencillas. Ahora 
bien, ¿cómo determinar exactamente los pesos y umbrales correctos para 
una tarea determinada? También aquí, Rosenblatt respondió tomando 
ejemplo del cerebro: el perceptrón debería aprender esos valores por sí solo. 
¿Y cómo se supone que va a aprender los apropiados? En consonancia con 
las teorías de psicología conductista populares en la época, la idea de 
Rosenblatt era que los perceptrones debían aprender mediante el 
condicionamiento. Inspirándose en parte en el psicólogo conductista B. F. 
Skinner, que enseñaba a ratas y palomas a llevar a cabo diversas tareas a 
base de refuerzos positivos y negativos, Rosenblatt pensó que el perceptrón 
debía entrenarse a partir de ejemplos: con una recompensa cuando «se 
activase» bien y con un castigo cuando se equivocase. Este 
condicionamiento es el que hoy se conoce en el campo de la IA como 
aprendizaje supervisado. Durante el entrenamiento, el sistema de 
aprendizaje recibe un ejemplo, emite una salida y entonces recibe una 
«señal de supervisión», que indica hasta qué punto difiere lo emitido por el 
sistema del resultado correcto, de manera que el sistema utiliza esa señal 
para ajustar sus pesos y umbrales. 

El concepto de aprendizaje supervisado es parte fundamental de la IA 
moderna, así que merece la pena que nos detengamos en él. Normalmente, 
el aprendizaje supervisado necesita una gran cantidad de ejemplos positivos 
(por ejemplo, una colección de números ocho escritos por distintas 
personas) y negativos (por ejemplo, una colección de cifras distintas de 
ocho, también manuscritas). Un humano etiqueta cada ejemplo según su 
categoría: en este caso, ocho o no ocho. Esta etiqueta va a ser la señal de 
supervisión. Para entrenar al sistema se emplean varios de los ejemplos 
positivos y negativos, lo que se denomina «datos de entrenamiento». Los 
demás, los «datos de prueba», se usan para evaluar el rendimiento del 
sistema después de entrenarlo, para ver hasta qué punto ha aprendido a dar 


la respuesta correcta en general, no solo en los ejemplos con los que se le ha 
entrenado. 

El término más importante en informática es tal vez algoritmo, que 
designa una «receta» con los pasos que puede seguir un ordenador para 
resolver un problema concreto. La principal contribución de Frank 
Rosenblatt a la IA fue el diseño de un algoritmo específico, llamado 
algoritmo de aprendizaje del perceptrón, con el que es posible entrenar un 
perceptrón a partir de ejemplos para determinar las ponderaciones y el 
umbral necesarios para emitir respuestas correctas. Funciona así: para 
empezar, se asignan a los pesos y el umbral unos valores aleatorios entre -1 
y 1. En nuestro ejemplo, la ponderación de la primera entrada de 
información podría fijarse en 0,2, la de la segunda entrada en —0,6, y asi 
sucesivamente, mientras que el umbral podría ser 0,7. Un programa 
informático llamado generador de números aleatorios puede generar 
cómodamente estos valores iniciales. 

Ahora podemos iniciar el proceso de entrenamiento. Se da al perceptrón 
el primer ejemplo de entrenamiento, sin que vea todavía la etiqueta de 
categoría correcta. El perceptrón multiplica cada entrada por su peso, suma 
todos los resultados, compara la suma con el umbral y emite un uno o un 
cero. En este caso, el uno significa una conjetura de ocho y el cero significa 
una conjetura de no ocho. Entonces, el proceso de entrenamiento compara 
lo emitido por el perceptrón con la respuesta correcta que aparece en la 
etiqueta asignada por el ser humano (es decir, ocho o no ocho). Si el 
perceptrón acierta, los pesos y el umbral no cambian. Pero si el perceptrón 
se equivoca, se modifican ligeramente, para que la suma del perceptrón en 
este ejemplo de entrenamiento se aproxime más a los valores que producen 
la respuesta correcta. Además, el grado de modificación de cada peso 
depende del valor de entrada asociado; es decir, la responsabilidad del error 
se asigna en función de las entradas o estímulos que hayan tenido más 
efecto. Por ejemplo, en el ocho de la figura 3A, los píxeles de mayor 


intensidad (en este caso, negros) tienen más efecto, y los píxeles con 
intensidad cero (en este caso, blancos) no tendrían ningún impacto. (Para 
los lectores interesados, he incluido algunos detalles matemáticos en las 
notas).[30] 

Todo el proceso se repite con el siguiente ejemplo de entrenamiento. Se 
utilizan todos los ejemplos de entrenamiento varias veces y se modifican 
ligeramente los pesos y el umbral cada vez que el perceptrón comete un 
error. Como descubrió el psicólogo B. F. Skinner cuando entrenaba 
palomas, es mejor aprender de forma gradual, probando muchas veces; si se 
modifican los pesos y el umbral demasiado de una sola vez, el sistema 
puede acabar aprendiendo lo que no debe (como la generalización de que 
«las mitades inferior y superior de un ocho tienen siempre el mismo 
tamaño»). Después de muchas repeticiones con cada ejemplo de 
entrenamiento, el sistema acaba (si todo va bien) por establecer un conjunto 
de pesos y un umbral que dan como resultado respuestas correctas para 
todos los ejemplos de entrenamiento. Entonces podemos evaluar el 
perceptrón con los ejemplos de prueba para ver cómo funciona con 
imágenes para las que no ha sido entrenado. Un detector de ochos es útil si 
nos interesan únicamente los ochos. Pero ¿y si queremos que reconozca 
otras cifras? Es bastante fácil ampliar nuestro perceptrón para que tenga 
diez salidas, una por cada dígito. Dada una cifra manuscrita de ejemplo, la 
salida correspondiente a esa cifra debe ser uno y todas las demás salidas 
deben ser cero. Este perceptrón ampliado puede aprender todos los pesos y 
umbrales utilizando el algoritmo de aprendizaje del perceptrón; lo único 
que necesita el sistema son suficientes ejemplos. 

Rosenblatt y otros demostraron que las redes de perceptrones podían 
aprender a desempeñar tareas perceptivas relativamente sencillas; además, 
Rosenblatt demostró matemáticamente que, para una clase de tareas 
determinada, aunque muy concreta, los perceptrones suficientemente 
entrenados podían, en principio, aprender a ejecutar esas tareas sin errores. 


Lo que no estaba claro era hasta qué punto los perceptrones podían hacer 
bien tareas de IA más generales, pero esa incertidumbre no pareció impedir 
que Rosenblatt y sus patrocinadores de la Oficina de Investigaciones 
Navales hicieran predicciones absurdamente optimistas sobre su algoritmo. 
The New York Times, en su información sobre una rueda de prensa que 
ofreció Rosenblatt en julio de 1958, hizo este resumen: 

La Armada ha dado a conocer hoy el embrión de un ordenador electrónico que prevé que 

podrá caminar, hablar, ver, escribir, reproducirse y ser consciente de su propia existencia. Con 


el tiempo, pronostican, los perceptrones serán capaces de reconocer a una persona y llamarla 
por su nombre, así como de traducir al instante un idioma hablado a otro hablado y escrito.[31] 


Sí, ya desde el principio, la IA fue víctima de un exceso de expectativas. 
Enseguida diré algo más sobre los desgraciados resultados de esta 
exageración. De momento, quiero utilizar los perceptrones para destacar 
una diferencia importante entre el enfoque simbólico de la IA y el 
subsimbólico. 

El hecho de que los «conocimientos» de un perceptrón consistan en una 
serie de números —en concreto, los pesos y el umbral que ha aprendido— 
hace que sea difícil descubrir las reglas que utiliza para llevar a cabo su 
tarea de reconocimiento. Las reglas del perceptrón no son simbólicas; a 
diferencia de los símbolos del Solucionador General de Problemas, como 
ORILLA-IZQUIERDA, #MISIONEROS Y TRASLADAR, los pesos y el 
umbral de un perceptrón no representan conceptos concretos. No es fácil 
traducir esos números en reglas comprensibles para los humanos. Y la 
situación es mucho peor con las redes neuronales modernas, que tienen 
millones de pesos. 

Podríamos hacer una vaga analogía entre los perceptrones y el cerebro 
humano. Si pudiéramos abrirnos la cabeza y observar cómo funciona un 
subconjunto de los cientos de miles de millones de neuronas que contiene, 
probablemente no entenderíamos lo que estamos pensando ni las «reglas» 
que nos han servido para tomar una decisión concreta. Sin embargo, el 


cerebro humano ha creado el lenguaje, que permite utilizar símbolos 
(palabras y frases) para contarnos —muchas veces de forma imperfecta— 
qué está pensando una persona o por qué ha hecho tal cosa. En este sentido, 
nuestras activaciones neuronales pueden considerarse «subsimbólicas», 
porque sustentan los símbolos que de una u otra manera crea nuestro 
cerebro. Los perceptrones y otras redes de neuronas simuladas más 
complicadas se denominan «subsimbólicos» por analogía con el cerebro. 
Sus defensores creen que, para conseguir la inteligencia artificial, los 
símbolos equivalentes al lenguaje y las reglas que rigen el procesamiento de 
símbolos no pueden programarse directamente, como se hizo en el 
Solucionador General de Problemas, sino que deben surgir de arquitecturas 
similares a las neuronales, de la misma forma que el procesamiento 
inteligente de símbolos surge del cerebro. 


Las limitaciones de los perceptrones 


Después de la reunión de Dartmouth de 1956, el campo de la IA estuvo 
dominado por el bando simbólico. En los primeros años sesenta, mientras 
Rosenblatt se dedicaba ávidamente a desarrollar el perceptrón, los cuatro 
grandes «fundadores» de la IA, todos ellos firmes partidarios de ese 
enfoque, habían creado ya laboratorios de inteligencia artificial bien 
dotados e influyentes: Marvin Minsky en el MIT, John McCarthy en 
Stanford y Herbert Simon y Allen Newell en Carnegie Mellon. (Es 
interesante que estas tres universidades sigan siendo hoy tres de los lugares 
más prestigiosos para estudiar IA). Minsky, en concreto, pensaba que la 
teoría de Rosenblatt sobre la IA, inspirada en el cerebro, era un callejón sin 
salida que estaba quitando dinero a las investigaciones de tipo simbólico, 
que merecían más la pena.[32 En 1969, Minsky y su colega del MIT 
Seymour Papert publicaron un libro, Perceptrons,[33] en el que probaban 
matemáticamente que los tipos de problemas que podía resolver de forma 


perfecta un perceptrón eran muy limitados y que su algoritmo de 
aprendizaje no serviría para tareas que exigiesen muchos pesos y umbrales. 

Minsky y Papert señalaron que si se amplificaba un perceptrón con el 
añadido de una «capa» de neuronas simuladas, podría resolver, en principio, 
muchos más tipos de problemas.[34] Un perceptrón al que se ha añadido una 
Capa de este tipo se denomina red neuronal multicapa. Estas redes son la 
base de gran parte de la IA moderna; las describiré con detalle en el 
próximo capítulo. Por ahora, me limitaré a indicar que en la época del libro 
de Minsky y Papert las redes neuronales multicapa no eran objeto de 
muchos estudios, sobre todo porque no había un algoritmo general análogo 
al algoritmo de aprendizaje del perceptrón para memorizar pesos y 
umbrales. 

Las limitaciones de los perceptrones simples que demostraron Minsky y 
Papert ya eran conocidas por los especialistas de este campo.[35] El propio 
Frank Rosenblatt había investigado mucho sobre los perceptrones multicapa 
y era consciente de las dificultades de entrenarlos.[36] Lo que acabó 
definitivamente con el perceptrón no fueron los datos matemáticos de 
Minsky y Papert, sino sus especulaciones sobre las redes neuronales 
multicapa: 

[El perceptrón] tiene muchas características que llaman la atención: su linealidad; su curioso 

teorema de aprendizaje; su clara simplicidad paradigmática como forma de computación 

paralela. No hay nada que indique que esas virtudes pueden trasladarse a la versión multicapa. 


Aun así, creemos que un problema de investigación importante es esclarecer (o rechazar) 
nuestra opinión intuitiva de que la ampliación es estéril.[37] 


Ay. En la jerga actual, se podría decir que esa frase final era «pasivo- 
agresiva». Las especulaciones negativas de este tipo fueron, al menos en 
parte, el motivo de que las investigaciones sobre redes neuronales se 
quedaran sin financiación a finales de los años sesenta, mientras que la IA 
simbólica empezó a recibir montañas de dinero público. En 1971, cuando 
tenía cuarenta y tres años, Frank Rosenblatt murió en un accidente náutico. 
Sin su principal impulsor y con escasos fondos públicos, las investigaciones 


sobre los perceptrones y otros métodos subsimbólicos de IA se 
interrumpieron casi por completo, excepto entre algunos grupos académicos 
aislados. 


El invierno de la IA 


Mientras tanto, los defensores de la IA simbólica se dedicaban a redactar 
propuestas de subvenciones que prometían avances inminentes en ámbitos 
como la comprensión del habla y el lenguaje, el razonamiento basado en el 
sentido común, la navegación robótica y los vehículos autónomos. A 
mediados de los años setenta, si bien habían conseguido poner en marcha 
algunos sistemas expertos con objetivos muy concretos, los avances 
generales de la IA prometidos no se habían hecho realidad. 

Las entidades de financiación se dieron cuenta. Dos informes, solicitados 
respectivamente por el Consejo de Investigaciones Científicas del Reino 
Unido y el Departamento de Defensa de Estados Unidos, presentaron 
conclusiones muy negativas sobre los avances y las perspectivas de la 
investigación en IA. En concreto, el informe británico reconocía que había 
señales prometedoras en el área de los sistemas expertos especializados 
—«programas escritos para ámbitos de problemas muy especializados, en 
los que la programación tiene muy en cuenta las lecciones de la experiencia 
y la inteligencia humana en el ámbito en cuestiónm»—, pero su conclusión 
era que los resultados hasta la fecha eran «totalmente desalentadores en los 
programas de ámbito general, que tratan de emular los aspectos de la 
actividad [cerebral] humana dedicados a la resolución de problemas en un 
campo muy amplio. Crear un programa general de este tipo, el objetivo a 
largo plazo al que aspiran las investigaciones sobre IA, parece estar tan 
lejos como siempre».[38] En el Reino Unido, este informe provocó que 
disminuyeran a toda velocidad los fondos públicos destinados a las 
investigaciones sobre IA, de la misma manera que, en Estados Unidos, el 


Departamento de Defensa recortó drásticamente las subvenciones para la 
investigación básica sobre IA. 

Este fue uno de los primeros ejemplos de un ciclo constante de burbujas 
y estallidos en el campo de la IA. El ciclo tiene dos partes. Fase 1: aparecen 
nuevas ideas que inspiran gran optimismo en la comunidad investigadora. 
Se prometen —muchas veces con gran revuelo mediático— avances 
inminentes en el campo de la IA. Las administraciones públicas y los 
inversores de capital riesgo aportan fondos para la investigación académica 
y para empresas privadas emergentes. Fase 2: los avances prometidos no se 
materializan o son mucho menos impresionantes de lo que se esperaba. La 
financiación pública y el capital riesgo se agotan. Las empresas emergentes 
desaparecen y la investigación sobre IA empieza a ir más despacio. Este 
patrón se ha vuelto familiar para el mundo de la IA: a la «primavera de la 
IA» le siguen todo tipo de promesas y el despliegue en los medios, y 
después, el «invierno de la IA». Esto ha sucedido, con algunas variaciones, 
en ciclos de cinco a diez años. Cuando terminé mis estudios de posgrado en 
1990, el campo de la IA pasaba por uno de sus inviernos y había adquirido 
tan mala imagen que incluso me aconsejaron que dejara de utilizar el 
término inteligencia artificial cuando solicitara empleo. 


Las cosas fáciles son difíciles 


Los fríos inviernos de la IA enseñaron varias lecciones importantes a los 
profesionales. La más sencilla fue la que subrayó John McCarthy cincuenta 
años después de la conferencia de Dartmouth: «La IA era más difícil de lo 
que pensábamos».[39 Marvin Minsky señaló que, en realidad, las 
investigaciones sobre IA habían puesto al descubierto una paradoja: «Las 
cosas fáciles son difíciles». Los objetivos originales de la IA —unos 
ordenadores capaces de conversar con nosotros en lenguaje natural, 
describir lo que ven a través de los ojos de su cámara, aprender nuevos 
conceptos con solo ver unos cuantos ejemplos— son cosas que cualquier 


niño pequeño puede hacer con facilidad, pero lo sorprendente es que para la 
IA es más difícil llevar a cabo esas «cosas fáciles» que diagnosticar 
enfermedades complejas, vencer a campeones humanos de ajedrez y go y 
resolver complejos problemas algebraicos. Como dijo también Minsky, «en 
general, somos menos conscientes de lo que nuestras mentes hacen mejor». 
[40] Por lo menos, el intento de crear una inteligencia artificial ha ayudado a 
dilucidar lo compleja y sutil que es nuestra propia mente. 
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Las redes neuronales y el auge del 
aprendizaje automático 


Atera de spoiler: las redes neuronales multicapa —la amplificación de los 
perceptrones que Minsky y Papert descartaron porque la consideraban 
«estéril»— han acabado siendo el punto de partida de gran parte de la 
inteligencia artificial moderna. Dado que en esas redes se basan varios de 
los métodos que describiré en capítulos posteriores, dedicaré algo de tiempo 
a describir cómo funcionan. 


Redes neuronales multicapa 


Una red no es más que un conjunto de elementos conectados entre sí de 
diversas maneras. Todos sabemos lo que son las redes sociales, en las que 
los elementos son personas, y las redes informáticas, en las que los 
elementos son, por supuesto, ordenadores. En las redes neuronales, los 
elementos son neuronas simuladas parecidas a los perceptrones que describí 
en el capítulo anterior. 

En la figura 4 he esbozado una sencilla red neuronal multicapa diseñada 
para reconocer cifras escritas a mano. La red tiene dos columnas (capas) de 
neuronas simuladas tipo perceptrón (círculos). Para simplificar (y 
probablemente para alivio de los neurocientíficos que me lean), voy a 


describir los elementos de esta red empleando el término unidad, en vez de 
neurona. La red de la figura 4, como el perceptrón detector de ochos del 
capítulo 1, tiene 324 (18 x 18) entradas (estímulos), cada una de ellas 
ajustada al valor de intensidad del píxel correspondiente en la imagen de 
entrada. Sin embargo, a diferencia del perceptrón, esta red tiene una Capa de 
tres unidades denominadas ocultas, además de su capa de diez unidades de 
salida. Cada unidad de salida corresponde a una de las categorías de cifras 
posibles. 


Unidades de salida 
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Figura 4. Una red neuronal de dos capas para reconocer cifras manuscritas. 


Las grandes flechas grises indican que cada estímulo tiene una conexión 
ponderada con cada unidad oculta y que cada unidad oculta tiene una 
conexión ponderada con cada unidad de salida. El término unidad oculta, 
de aire tan misterioso, procede de los textos sobre redes neuronales y se 


refiere sencillamente a una unidad que no es de salida. Quizá habría sido 
más apropiado llamarla «unidad interior». 

Pensemos en la estructura de nuestro cerebro, en el que algunas neuronas 
controlan directamente «salidas» como los movimientos musculares, pero 
las demás, en su mayoría, se limitan a comunicarse con otras neuronas. 
Estas son las que podríamos llamar las neuronas ocultas del cerebro. 

La red de la figura 4 se denomina «multicapa» porque tiene dos capas de 
unidades (ocultas y de salida), en vez de una capa de salida y nada más. En 
principio, una red multicapa puede tener varias capas de unidades ocultas; 
las redes que tienen más de una capa de unidades ocultas se llaman redes 
profundas. La «profundidad» de una red no es más que el número de capas 
ocultas que contiene. En los próximos capítulos hablaré mucho más de las 
redes profundas. 

Igual que sucede en los perceptrones, cada unidad multiplica cada una de 
sus entradas por el peso de la conexión de esa entrada y suma los 
resultados. Sin embargo, a diferencia de lo que pasa en un perceptrón, aquí 
una unidad no se limita a «activarse» o «no activarse» (es decir, emitir uno 
o cero) en función de un umbral, sino que cada unidad utiliza su suma para 
calcular un número entre cero y uno que es la llamada «activación» de la 
unidad. Si la suma que calcula una unidad es baja, la activación de la 
unidad se aproxima a cero; si la suma es alta, la activación se aproxima a 
uno. (Para los lectores interesados, he incluido algunos de los detalles 
matemáticos en las notas).[41] 

Para procesar una imagen como el ocho manuscrito de la figura 4, la red 
lleva a cabo sus cálculos capa a capa, de izquierda a derecha. Cada unidad 
oculta calcula su valor de activación; esos valores de activación se 
convierten en las entradas para las unidades de salida, que, a su vez, 
calculan sus propias activaciones. En la red de la figura 4, se puede 
considerar que la activación de una unidad de salida es la confianza de la 


red en que está «viendo» la cifra correspondiente; la categoría de cifras que 
tenga más confianza es la respuesta de la red, su clasificación. 

En teoría, una red neuronal multicapa puede aprender a utilizar sus 
unidades ocultas para reconocer características más abstractas (por ejemplo, 
formas como los «círculos» superior e inferior de un ocho escrito a mano) 
que las básicas (por ejemplo, píxeles) codificadas en la entrada. No suele 
ser fácil saber de antemano cuántas capas de unidades ocultas se necesitan 
ni cuántas unidades ocultas deben incluirse en una capa para que una red 
desempeñe bien una tarea determinada. Los investigadores de redes 
neuronales recurren en general a alguna forma de prueba y error para 
descubrir los ajustes más apropiados. 


Aprendizaje por retropropagación 


En su libro Perceptrons, Minsky y Papert se mostraban escépticos ante la 
posibilidad de diseñar un algoritmo capaz de aprender los pesos de una red 
neuronal multicapa. Su escepticismo, unido a las dudas de otros estudiosos 
de la IA simbólica, fue una de las principales razones de que disminuyeran 
bruscamente los fondos para la investigación sobre redes neuronales en los 
años setenta. Sin embargo, a pesar del jarro de agua fría que supuso el libro 
de Minsky y Papert, un pequeño grupo de investigadores sobre redes 
neuronales persistió, sobre todo en el campo de la psicología cognitiva de 
Frank Rosenblatt, de forma que a finales de los años setenta y principios de 
los ochenta, varios de ellos habían conseguido ya refutar de forma 
definitiva las especulaciones de Minsky y Papert sobre la «esterilidad» de 
las redes neuronales multicapa mediante el desarrollo de un algoritmo de 
aprendizaje general —llamado retropropagación— para entrenar estas 
redes. 

Como su nombre indica, la retropropagación consiste en fijarse en un 
error observado en las unidades de salida (por ejemplo, la alta confianza 
con respecto a una cifra errónea en la figura 4) y «propagar» la culpa de ese 


error hacia atrás (en la figura 4, sería de derecha a izquierda) para asignar la 
responsabilidad correspondiente a cada uno de los pesos de la red. Eso 
permite que la retropropagación determine cuánto hay que modificar cada 
peso para disminuir el error. El aprendizaje en redes neuronales consiste 
sencillamente en modificar de forma gradual los pesos de las conexiones 
para que cada error de salida se acerque lo más posible a cero en todos los 
ejemplos de entrenamiento. Aunque aquí no voy a abordar los aspectos 
matemáticos de la retropropagación, he incluido algunos detalles en las 
notas.[42] 

La retropropagación funciona (al menos en teoría) independientemente 
del número de entradas, unidades ocultas o unidades de salida que tenga la 
red neuronal. Aunque no existen garantías matemáticas de que la 
retropropagación resuelva los pesos correctos para una red, en la práctica ha 
conseguido buenos resultados en muchas tareas que son demasiado difíciles 
para los perceptrones simples. Por ejemplo, yo entrené un perceptrón y una 
red neuronal de dos capas, cada una con trescientas veinticuatro entradas y 
diez salidas, para que aprendieran a reconocer cifras escritas a mano; utilicé 
sesenta mil ejemplos y luego examiné hasta qué punto era capaz cada uno 
de ellos de reconocer diez mil ejemplos nuevos. El perceptrón acertó en el 
80 por ciento de los nuevos ejemplos, mientras que la red neuronal, con 
cincuenta unidades ocultas, acertó en el 94 por ciento de ellos. Bien hecho, 
unidades ocultas. Pero ¿qué había aprendido exactamente la red neuronal 
para superar al perceptrón? No lo sé. A lo mejor encuentro alguna forma de 
visualizar las 16.700 ponderaciones de la red neuronal¡43] para comprender 
mejor su rendimiento, pero de momento no lo he conseguido y, en general, 
no es nada fácil entender cómo toman sus decisiones estas redes. 

Es importante subrayar que, aunque he utilizado el ejemplo de las cifras 
manuscritas, las redes neuronales no solo pueden aplicarse a imágenes, sino 
a Cualquier tipo de datos. Las redes neuronales se han utilizado en ámbitos 


tan distintos como el reconocimiento de voz, las predicciones en el mercado 
bursátil, la traducción y la composición musical. 


Conexionismo 


En los años ochenta, el grupo más conocido del campo de las redes 
neuronales era un equipo de la Universidad de California en San Diego 
dirigido por dos psicólogos, David Rumelhart y James McClelland. En 
aquel entonces, las que hoy llamamos redes neuronales solían denominarse 
redes conexionistas, un término que expresa la idea de que, en estas redes, 
el conocimiento reside en las conexiones ponderadas entre unidades. El 
equipo que dirigían Rumelhart y McClelland es conocido porque escribió la 
llamada biblia del conexionismo: un tratado en dos volúmenes, publicado 
en 1986, titulado Parallel Distributed Processing. En un panorama 
dominado por la IA simbólica, el libro era un alegato en favor del enfoque 
subsimbólico, que sostenía que «las personas son más inteligentes que los 
ordenadores actuales porque el cerebro emplea una arquitectura 
computacional básica más adecuada para —por ejemplo— percibir objetos 
en escenarios naturales e identificar sus relaciones, [...] comprender el 
lenguaje y recuperar información contextualmente apropiada de la 
memoria».[44] Los autores especulaban con que «los sistemas simbólicos 
como los que prefieren Minsky y Papert»[45] no serían capaces de captar 
esas capacidades humanas. 

De hecho, a mediados de los años ochenta, los sistemas expertos —unos 
enfoques de IA simbólica que se basan en los humanos para crear reglas 
que reflejen el conocimiento experto de un ámbito concreto— empezaban a 
parecer cada vez más frágiles: es decir, propensos a errores y a menudo 
incapaces de generalizar O adaptarse a situaciones nuevas. Al analizar las 
limitaciones de estos sistemas, los investigadores descubrieron hasta qué 
punto los expertos humanos que escriben las reglas se basan, en realidad, en 
conocimientos subconscientes —lo que podríamos llamar sentido común— 


para actuar de forma inteligente. Este tipo de sentido común no era fácil de 
recoger en reglas programadas ni deducciones lógicas, y su falta limitaba 
gravemente cualquier aplicación general de los métodos de IA simbólica. 
Es decir, después de un ciclo de grandes promesas, mucho dinero y revuelo 
mediático, la IA simbólica afrontaba otro invierno. 

Los partidarios del conexionismo decían que las claves de la inteligencia 
eran una arquitectura computacional adecuada — inspirada en el cerebro— 
y la capacidad del sistema para aprender por su cuenta a partir de datos o 
del comportamiento en el mundo. Rumelhart, McClelland y su equipo 
construyeron unas redes conexionistas (en software) como modelos 
científicos del aprendizaje, la percepción y el desarrollo del lenguaje en los 
humanos. Aunque las redes no tenían un rendimiento que se pareciera lo 
más mínimo al nivel humano, las diversas redes descritas en libros como 
Introducción al procesamiento distribuido en paralelo y otros eran 
productos de IA lo bastante interesantes como para llamar la atención de 
mucha gente, por ejemplo las entidades de financiación. En 1988, un alto 
cargo de la Agencia de Proyectos de Investigación Avanzada de Defensa 
(DARPA, por sus siglas en inglés), el organismo estadounidense que 
proporcionaba la mayor parte de los fondos para la IA, proclamó: «Creo 
que esta tecnología en la que estamos a punto de embarcarnos [es decir, las 
redes neuronales] es más importante que la bomba atómica».[46] De repente, 
las redes neuronales volvieron a estar «de moda». 


Malos para la lógica, buenos para el frisbee 


Durante las seis décadas de investigación sobre IA ha habido repetidos 
debates sobre las ventajas y los inconvenientes relativos de los enfoques 
simbólico y subsimbólico. Los sistemas simbólicos pueden tener un diseño 
hecho por humanos, estar imbuidos de conocimientos humanos y usar 
razonamientos comprensibles desde el punto de vista humano para resolver 
problemas. Por ejemplo, a MYCIN, un sistema experto desarrollado a 


principios de los años setenta, se le proporcionaron alrededor de seiscientas 
reglas que utilizó para ayudar a los médicos a diagnosticar y tratar 
enfermedades de la sangre. Los programadores de MYCIN desarrollaron las 
reglas después de minuciosas entrevistas con médicos especialistas en el 
tema. Si se le introducían los síntomas y los resultados de las pruebas 
médicas de un paciente, MYCIN era capaz de emplear la lógica y el 
razonamiento probabilístico junto con sus reglas para emitir un diagnóstico 
y, además, podía explicar el proceso de razonamiento. En resumen, MYCIN 
era un ejemplo paradigmático de IA simbólica. 

En cambio, como hemos visto, los sistemas subsimbólicos suelen ser 
difíciles de interpretar y nadie sabe cómo incluir directamente en su 
programa conocimientos humanos complejos ni elementos lógicos. Los 
sistemas subsimbólicos parecen mucho más apropiados para hacer tareas 
perceptivas o motoras en las que los humanos no pueden definir reglas 
fácilmente. No es sencillo escribir unas reglas para identificar cifras escritas 
a mano, atrapar una pelota de béisbol o reconocer la voz materna; lo 
hacemos aparentemente de forma automática, sin ser conscientes de ello. 
Como dijo el filósofo Andy Clark, lo natural en los sistemas subsimbólicos 
es ser «malos para la lógica pero buenos para el frisbee».[47] 

Entonces, ¿por qué no utilizar sistemas simbólicos para las tareas que 
requieren descripciones casi lingüísticas y razonamientos lógicos de alto 
nivel, y emplear sistemas subsimbólicos para las tareas perceptivas de bajo 
nivel, como el reconocimiento de caras y voces? Hasta cierto punto, eso es 
lo que se ha hecho en la IA, con muy poca conexión entre los dos ámbitos. 
Cada enfoque ha alcanzado éxitos considerables en ámbitos concretos, pero 
tiene serias limitaciones a la hora de conseguir los objetivos originales de la 
IA. Aunque ha habido algunos intentos de construir sistemas híbridos que 
incluyan métodos subsimbólicos y simbólicos, todavía no hay ninguno que 
haya tenido un éxito digno de mención. 


El ascenso del aprendizaje automático 


Inspirándose en la estadística y la teoría de la probabilidad, los 
investigadores de la IA desarrollaron numerosos algoritmos que hacen que 
los ordenadores puedan aprender de los datos, y el campo del aprendizaje 
automático se convirtió en una subdisciplina independiente dentro de la IA, 
deliberadamente apartada de la IA simbólica. Los investigadores sobre 
aprendizaje automático hablaban de los métodos simbólicos de la IA en 
tono despectivo, llamándolos la IA pasada de moda, o GOFAI (siglas 
correspondientes a good old-fashioned Al),¡48] y los rechazaban 
categóricamente. 

Durante las dos décadas siguientes, el aprendizaje automático también 
tuvo sus ciclos de optimismo, financiación pública, empresas que surgían 
como setas y promesas exageradas, para luego caer en los inevitables 
inviernos. El entrenamiento de las redes neuronales y otros métodos 
similares para resolver problemas del mundo real podía ser de una lentitud 
desesperante y, en muchos casos, no funcionaba muy bien, por lo limitado 
de los datos y la potencia informática en aquel momento. Pero pronto 
llegarían más datos y más potencia; de ello se iba a encargar el explosivo 
crecimiento de internet. El terreno estaba listo para la siguiente gran 
revolución de la IA. 


[41] El valor de activación y en cada unidad oculta y de salida se calcula normalmente tomando el 
producto punto entre el vector x de entradas a la unidad y el vector w de pesos en las conexiones a 


esa unidad, y aplicando la función sigmoide al resultado: y = 1/ (1 + ex: w), Los vectores x y w 
también incluyen el peso de «sesgo» y la activación. Si las unidades tienen funciones de salida no 
lineales, como las sigmoides, con suficientes unidades ocultas la red puede calcular cualquier función 
(con restricciones mínimas) a cualquier nivel de aproximación deseado. Este hecho se denomina 
teorema de aproximación universal. Véase M. Nielsen, Neural Networks and Deep Learning, 
neuralnetworksanddeeplearning.com, para más detalles. 

[42] Para lectores con conocimientos de cálculo: la retropropagación es una forma de descenso de 
gradiente que aproxima, para cada peso w de la red, la dirección de descenso más pronunciado en la 
«superficie de error». Esta dirección se calcula tomando el gradiente de la función de error (por 


ejemplo, el cuadrado de la diferencia entre la salida y el objetivo) con respecto al peso w. 
Consideremos, por ejemplo, el peso w en la conexión de la unidad de entrada i a la unidad oculta h. 
El peso w se modifica en la dirección del descenso más pronunciado en una cantidad determinada por 
el error que se ha propagado a la unidad h, así como por la activación de la unidad i y una tasa de 
aprendizaje definida por el usuario. Para una explicación en profundidad de la retropropagación, 
recomiendo el libro en línea gratuito de Michael Nielsen, Neural Networks and Deep Learning. 

[43] En mi red con 324 entradas, 50 unidades ocultas y 10 unidades de salida, hay 324 x 50 = 
16.200 pesos de las entradas a la capa oculta, y 50 x 10 = 500 pesos de la capa oculta a la capa de 
salida, lo que da un total de 16.700 pesos. 

[44] D. E. Rumelhart, J. L. McClelland y el PDP Research Group, Parallel Distributed 
Processing: Explorations in the Microstructure of Cognition, Cambridge, Mass.: MIT Press, 1986, 
1:3 [trad. cast.: Introducción al procesamiento distribuido en paralelo, Madrid: Alianza, 1992]. 

[45] Ibid., p. 113. 

[46] Citado en C. Johnson, «Neural Network Startups Proliferate Across the U.S.», The Scientist, 
17 de octubre de 1988. 

[47] A. Clark, Being There: Putting Brain, Body, and World Together Again, Cambridge, Mass.: 
MIT Press, 1996, p. 26 [trad. cast.: Estar ahí. Cerebro, cuerpo y mundo en la nueva ciencia 
cognitiva, Barcelona: Paidós, 1999]. 

[48] Como me señaló Douglas Hofstadter, la versión gramaticalmente correcta es «IA muy pasada 
de moda» (good old old-fashioned Al), pero GOOFAI no suena igual que GOFAI. 
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La primavera de la IA 


Fiebre primaveral 


é,Aguna vez ha grabado un video de su gato y lo ha subido a YouTube? 
No es el único. Hay mas de mil millones de videos publicados en YouTube, 
y los gatos protagonizan muchos de ellos. En 2012, un equipo de IA de 
Google construyó una red neuronal multicapa con más de mil millones de 
pesos que «veía» millones de vídeos aleatorios de YouTube mientras 
ajustaba los pesos para comprimir y descomprimir fotogramas escogidos de 
esos vídeos. Los investigadores no pidieron al sistema que aprendiera nada 
sobre ningún objeto concreto, pero, después de una semana de 
entrenamiento, cuando examinaron las entrañas de la red, se encontraron 
nada menos que con una «neurona» (unidad) que parecía codificar gatos.[49] 
Esta máquina autodidacta de reconocimiento de gatos es una de las 
impresionantes conquistas de la IA que han captado la atención de la gente 
durante la última década. Casi todas se basan en un conjunto de algoritmos 
de redes neuronales que se denomina aprendizaje profundo. 

Hasta hace poco, la imagen popular de la IA procedía sobre todo de todas 
las películas y todos los programas de televisión en los que desempeñaba un 
papel protagonista, como 2001: una odisea del espacio o Terminator. La IA 
de verdad era poco visible en la vida cotidiana y los medios de 
comunicación. Una persona que llegó a la mayoría de edad en los años 
noventa o antes quizá recuerde la frustración de intentar usar los sistemas 


de reconocimiento de voz de los servicios de atención al cliente, el robot de 
juguete Furby para aprender palabras o el molesto y malogrado Clippy, el 
asistente virtual de Microsoft en forma de clip. La IA propiamente dicha no 
parecía inminente. 

Quizá por eso tanta gente se mostró sorprendida y molesta en 1997 
cuando el programa de ajedrez Deep Blue de IBM derrotó al campeón 
mundial Garry Kasparov. Kasparov se quedó tan atónito que acusó al 
equipo de IBM de hacer trampas; suponía que para que la máquina jugara 
tan bien, tenía que haber contado con ayuda de expertos humanos.[50] (Un 
precioso toque de ironía es que durante las partidas del Campeonato 
Mundial de Ajedrez de 2006, se volvieron las tornas y un jugador acusó al 
otro de hacer trampas con ayuda de un programa de ajedrez).[51] 

La angustia colectiva que nos provocó Deep Blue se esfumó enseguida. 
Aceptamos que el ajedrez podía ceder ante la fuerza bruta de la máquina; 
reconocimos que, después de todo, no hacía falta una inteligencia general 
para jugar bien al ajedrez. Esta parece ser una respuesta habitual cuando los 
ordenadores superan a los humanos en una tarea concreta: nuestra 
conclusión es que para hacer esa tarea, en realidad, no hace falta la 
inteligencia. Como se lamentaba John McCarthy: «En cuanto consigue 
resultados, la gente deja de llamarla IA ».[52] 

Sin embargo, a partir de mediados de los años dos mil, esos éxitos de la 
IA empezaron a aumentar poco a poco y, de pronto, a proliferar a velocidad 
de vértigo. Google presentó su servicio de traducción automática de 
idiomas, Google Translate. No era perfecto, pero funcionaba 
sorprendentemente bien y, desde entonces, ha mejorado de forma 
considerable. Poco después aparecieron en las carreteras del norte de 
California los coches autónomos de Google, precavidos y tímidos, pero a 
solas en medio de todo el tráfico. Empezamos a instalar en nuestro teléfono 
y nuestro hogar asistentes virtuales como Siri, de Apple, y Alexa, de 
Amazon, Capaces de atender muchas de nuestras peticiones habladas. 


YouTube empezó a ofrecer subtítulos automáticos extraordinariamente 
precisos en sus vídeos y Skype a proporcionar traducción simultánea en las 
videollamadas. De repente, Facebook era capaz de identificar nuestro rostro 
cuando subíamos fotos, y la web Flickr, en la que se cuelgan, se venden, se 
compran y se comparten fotos, empezó a etiquetarlas automáticamente con 
la descripción del contenido. 

En 2011, el programa Watson de IBM derrotó de forma aplastante a 
varios campeones del concurso de televisión Jeopardy! con su habilidad 
para interpretar unas pistas llenas de juegos de palabras, hasta el punto de 
empujar a su rival Ken Jennings a «dar la bienvenida a nuestros nuevos 
señores informáticos». Solo cinco años después, millones de navegantes de 
internet descubrieron lo que era el complejo juego del go, que desde hacía 
tiempo suponía un gran reto para la IA, cuando un programa llamado 
AlphaGo derrotó de forma asombrosa a uno de los mejores jugadores del 
mundo en cuatro de cinco partidas. 

El alboroto provocado por la inteligencia artificial estaba volviéndose 
ensordecedor y las empresas comerciales tomaron nota. Todas las grandes 
tecnológicas han invertido miles de millones de dólares en investigación y 
desarrollo de IA, ya sea contratando directamente a expertos en la materia O 
mediante la compra de empresas emergentes más pequeñas con el único 
propósito de quedarse (vía «adquisición-contratación») con el talento de sus 
empleados. Esa posibilidad de adquisición y de convertirse de forma 
instantánea en millonarios ha fomentado la proliferación de empresas 
emergentes, en muchos casos fundadas y presididas por antiguos profesores 
universitarios que tienen, cada uno, su propia versión de IA. Como observó 
el periodista especializado en tecnología Kevin Kelly: «Los planes de 
negocio de las próximas diez mil empresas emergentes son fáciles de 
predecir: coge X y añádele IA».[53] Y lo más importante es que, para casi 
todas estas empresas, IA ha significado «aprendizaje profundo». 

La primavera de la IA vuelve a estar en flor. 


IA: estrecha y general, débil y fuerte 


Igual que en todas las primaveras que ha vivido la IA hasta ahora, en esta 
hay expertos que predicen que la «IA general» —la que es capaz de igualar 
o superar a los humanos en la mayoría de los ámbitos— llegará pronto. «La 
IA de nivel humano se superará a mediados de la década de 2020»,[54] 
predijo Shane Legg, cofundador de Google DeepMind, en 2016. Un año 
antes, el consejero delegado de Facebook, Mark Zuckerberg, declaró: «Uno 
de nuestros objetivos de aquí a cinco o diez años es, en definitiva, superar el 
nivel humano en todos los sentidos primordiales: vista, oído, lenguaje, 
conocimiento en general».[55] En 2013, los filósofos especializados en 
inteligencia artificial Vincent Müller y Nick Bostrom publicaron los 
resultados de una encuesta entre investigadores de IA en la que muchos 
opinaban que había un 50 por ciento de probabilidades de contar con una IA 
de nivel humano para el año 2040.[56] 

Aunque este optimismo se basa sobre todo en los avances recientes del 
aprendizaje profundo, estos programas —como todos los modelos de IA 
hasta el momento— siguen siendo ejemplos de lo que se denomina IA 
«estrecha» o «débil». Estos términos no son tan peyorativos como parecen; 
simplemente designan un sistema que solo puede llevar a cabo una tarea 
estrictamente definida (o un pequeño conjunto de tareas relacionadas). 
AlphaGo es seguramente el mejor jugador de go del mundo, pero no puede 
hacer ninguna otra cosa; ni siquiera puede jugar a las damas, al tres en raya 
o al Candy Land. Google Translate puede traducir al chino la crítica en 
inglés de una película, pero no puede decir si al crítico le ha gustado o no y, 
desde luego, no puede verla ni hacer su propia reseña. 

Los términos estrecha y débil se utilizan para diferenciarla de la IA 
fuerte, de nivel humano, general o completa (a veces denominada IAG, 
inteligencia artificial general); es decir, la IA que vemos en las películas, 
capaz de hacer casi todo lo que hacemos los humanos y seguramente mucho 
más. Aunque la IA general era el objetivo inicial de este campo de 


investigación, materializarla ha resultado mucho más difícil de lo esperado. 
Los trabajos de IA han acabado centrándose en tareas concretas y muy 
definidas: reconocimiento del habla, ajedrez, conducción autónoma y otras 
similares. Crear máquinas que desempeñen estas funciones es útil y muchas 
veces lucrativo; y se puede alegar que para llevar a cabo cada una de esas 
tareas hace falta «inteligencia». Pero todavía no existe ningún programa de 
IA que pueda considerarse inteligente en términos generales. Una 
evaluación reciente lo expresaba bien: «La suma de un montón de 
inteligencias estrechas nunca va a ser una inteligencia general. La 
inteligencia general no tiene que ver con el número de capacidades, sino 
con la integración de esas capacidades».[57] 

Ahora bien: dado lo rápido que está aumentando el número de 
inteligencias estrechas, ¿cuánto tiempo falta para que alguien descubra 
cómo integrarlas y obtener toda la amplitud, la profundidad y la sutileza de 
la inteligencia humana? ¿Hacemos caso al científico cognitivo Steven 
Pinker, que opina que todo esto es lo de siempre? «Para contar con una IA 
de nivel humano siguen faltando entre quince y veinticinco años, como 
siempre, y muchos de los avances de los que tanto se presume últimamente 
tienen unas raíces superficiales», ha dicho Pinker.[58] ¿O debemos prestar 
más atención a los optimistas de la IA, que están seguros de que esta vez, en 
esta primavera de la IA, las cosas serán diferentes? 

No es de extrañar que en la comunidad de investigadores de la IA haya 
mucha controversia sobre lo que supondría una IA de nivel humano. ¿Cómo 
podemos saber si hemos conseguido construir una «máquina pensante»? 
¿Debería tener conciencia o ser consciente de sí misma, como los humanos? 
¿Tendría que entender las cosas del mismo modo que un ser humano? Dado 
que estamos hablando de una máquina, ¿sería más correcto decir que 
«simula el pensamiento», o podríamos decir que piensa verdaderamente? 


¿Podrían pensar las máquinas? 


Estas preguntas filosóficas han perseguido a la IA desde sus inicios. Alan 
Turing, el matemático británico que en los años treinta creó el primer 
esbozo de ordenador programable, publicó en 1950 un artículo en el que 
especulaba sobre qué queríamos decir cuando preguntábamos si las 
máquinas podían pensar. Después de proponer su famoso «juego de 
imitación» (hoy llamado prueba de Turing; entraré en más detalle un poco 
más adelante), Turing enumeró nueve posibles objeciones a la posibilidad 
de que una máquina pensara de verdad e intentó refutar todas ellas. Estas 
objeciones imaginarias van desde las teológicas —«El pensamiento es una 
función del alma inmortal del hombre. Dios ha dado un alma inmortal a 
todos los hombres y mujeres, pero no a ningún otro animal ni a las 
máquinas. Por tanto, ningún animal ni ninguna máquina puede pensar»— 
hasta las de tipo parapsicológico, algo así como «los seres humanos pueden 
usar la telepatía para comunicarse y las máquinas no». Aunque parezca 
extraño, a Turing este último argumento le parecía «muy sólido», porque 
«los datos estadísticos, al menos en el caso de la telepatía, son 
abrumadores». 

Desde la perspectiva de las muchas décadas transcurridas, considero que 
el argumento más sólido entre todos los de Turing es el «argumento de la 
conciencia», que él resume en una cita del neurólogo Geoffrey Jefferson: 

Solo cuando una máquina pueda escribir un soneto o componer un concierto gracias a los 

pensamientos y las emociones, y no por un reparto aleatorio de símbolos, podremos estar de 

acuerdo en que la máquina es igual que el cerebro, es decir, cuando no solo haya escrito esa 
obra sino que sepa que la ha escrito. Ningún mecanismo puede sentirse (y no solo indicarlo de 
forma artificial, que es un truco sencillo) contento por sus éxitos, triste cuando se funden sus 


válvulas, reconfortado con los halagos, desolado por los errores, fascinado por el sexo ni 
enfadado o deprimido cuando no puede conseguir lo que quiere.[59] 


Obsérvese lo que dice este argumento: (1) solo cuando una máquina siente 
cosas y es consciente de sus propias acciones y sentimientos —es decir, 
tiene conciencia—, podemos considerar que verdaderamente piensa; y (2) 
ninguna máquina puede hacer eso jamás. Por consiguiente, ninguna 


máquina puede pensar. Me parece un argumento sólido, aunque no esté de 
acuerdo con él. Está en consonancia con lo que intuimos sobre las máquinas 
y sus limitaciones. A lo largo de los años, he hablado con infinidad de 
amigos, familiares y alumnos sobre la posibilidad de la inteligencia 
artificial, y este es el argumento que defienden muchos de ellos. Por 
ejemplo, hace poco hablaba con mi madre, que es una abogada jubilada y 
había leído un artículo de The New York Times sobre los avances del 
programa Google Translate: 
MI MADRE: El problema con la gente en el campo de la IA es que antropomorfizan demasiado. 
YO: ¿A qué te refieres con antropomorfizar? 
MI MADRE: El lenguaje que utilizan da a entender que las máquinas podrían ser capaces de 
pensar de verdad, en lugar de limitarse a simular el pensamiento. 
YO: ¿Cuál es la diferencia entre «pensar de verdad» y «simular el pensamiento»? 
MI MADRE: Pensar de verdad se hace con un cerebro, simular es lo que hacen los ordenadores. 
YO: ¿Qué tiene de especial el cerebro para permitir pensar «de verdad»? ¿Qué les falta a los 
ordenadores? 


MI MADRE: No sé. Creo que el pensamiento tiene una cualidad humana que los ordenadores 
nunca podrán imitar por completo. 


Mi madre no es la única que tiene esta intuición. De hecho, a mucha gente 
le parece tan obvio que no hacen falta argumentos. Y mi madre, como 
muchas de esas personas, diría que es una materialista filosófica; es decir, 
que no cree en ningún «alma» ni «fuerza vital» no física que impregne de 
inteligencia a los seres vivos. Simplemente, no cree que las máquinas 
puedan tener lo necesario para «pensar de verdad». 

En el ámbito académico, la versión más famosa de este argumento la 
propuso el filósofo John Searle. En 1980, Searle publicó un artículo titulado 
«Mentes, cerebros y programas»,[s0] en el que rechazaba enérgicamente la 
posibilidad de que las máquinas pensaran de verdad. Fue en este polémico 
artículo, muy leído, donde Searle introdujo los conceptos de IA «fuerte» y 
«débil» para distinguir entre dos afirmaciones filosóficas sobre los 
programas de inteligencia artificial. Aunque hoy mucha gente utiliza la 
expresión /A fuerte para referirse a «la IA capaz de llevar a cabo la mayoría 


de las tareas tan bien como un ser humano» e JA débil para designar el tipo 
de IA estrecha que existe en la actualidad, Searle empleaba estos términos 
con un sentido distinto. Para él, la definición de JA fuerte sería que «el 
ordenador digital bien programado no solo simula tener una mente, sino que 
verdaderamente la tiene».[61] Por el contrario, en la terminología de Searle, 
IA débil considera los ordenadores como herramientas para simular la 
inteligencia humana y no dice nada de que tengan «verdaderamente» una 
mente.[62] Volvamos a la cuestión filosófica que discutía con mi madre: 
¿hay alguna diferencia entre «simular una mente» y «tener verdaderamente 
una mente»? Searle, como mi madre, cree que existe una diferencia 
fundamental, y alega que la IA fuerte es imposible incluso en teoría.[63] 


La prueba de Turing 


El artículo de Searle partía en parte del artículo de Alan Turing «Computing 
Machinery and Intelligence» (Maquinaria informática e inteligencia), 
publicado en 1950, que proponía una forma de resolver el nudo gordiano de 
la oposición entre inteligencia «simulada» y «real». Después de declarar 
que «la pregunta original, “¿Puede pensar una máquina?”, es demasiado 
vaga para abordarla», Turing sugería un método operativo para darle 
sentido. En su «juego de imitación», hoy la prueba de Turing, hay dos 
competidores: un ordenador y una persona. Un juez (humano) hace 
preguntas de forma independiente a cada uno e intenta determinar cuál es 
cuál. El juez está separado físicamente de los dos, de modo que no puede 
utilizar la vista ni el oído; todas las comunicaciones son mediante texto 
mecanografiado. 


cc 


La sugerencia de Turing era esta: «La pregunta “;Pueden pensar las 
máquinas?” debería sustituirse por “¿Podemos imaginar unos ordenadores 
digitales capaces de triunfar en el juego de imitación?”». En otras palabras, 
si un ordenador se parece lo suficiente a un ser humano como para ser 


indistinguible de él, salvo por su aspecto físico o el sonido que emite (o el 


olor o el tacto, ya puestos), ¿por qué no vamos a creer que verdaderamente 
piensa? ¿Por qué vamos a exigir que, para decir que una entidad es 
«pensante», tenga que estar creada a partir de un tipo concreto de material 
(por ejemplo, células biológicas)? Como dijo en términos más contundentes 
el informático Scott Aaronson, la propuesta de Turing es «un alegato contra 
el chovinismo de la carne».[64] 

Los problemas surgen siempre en la letra pequeña, y la prueba de Turing 
no es ninguna excepción. Turing no especificó los criterios para seleccionar 
ni al competidor humano ni al juez; tampoco estipuló cuánto debía durar la 
prueba ni qué temas de conversación debían permitirse. Sin embargo, hizo 
una predicción extrañamente específica: «Creo que de aquí a cincuenta años 
será posible programar los ordenadores [...] para que sean tan buenos en el 
juego de imitación que un interrogador normal, después de cinco minutos 
de preguntas, no tenga más que un 70 por ciento de probabilidades de 
identificarlos correctamente». En otras palabras, en una sesión de cinco 
minutos, el juez medio se equivocará el 30 por ciento de las veces. 

La predicción de Turing ha resultado bastante acertada. Durante años se 
han hecho diversas pruebas en las que los concursantes informáticos son 
chatbots, programas creados específicamente para mantener una 
conversación (no son capaces de nada más). En 2014, la Royal Society de 
Londres acogió una demostración de la prueba de Turing en la que 
participaron cinco programas informáticos, treinta competidores y treinta 
jueces humanos de diferente edad y condición social, entre los que había 
expertos y profanos en informática y hablantes nativos y no nativos de 
inglés. Cada juez mantenía varias conversaciones de cinco minutos en las 
que se comunicaba (por escrito) en paralelo con un par de competidores — 
una persona y una máquina— y después tenía que adivinar cuál era cada 
uno. La competición la ganó un chatbot creado por unos programadores 
rusos y ucranianos, llamado «Eugene Goostman», que consiguió engañar a 
diez jueces (el 33,3 por ciento). Los organizadores de la prueba, de acuerdo 


con el criterio de Turing («más del 30 por ciento equivocado en cinco 
minutos»), se apresuraron a inundar los medios de comunicación con la 
noticia de que por fin se había superado la prueba de Turing. 

El chatbot Eugene Goostman funciona como casi todos los demás 
chatbots. Almacena un montón de plantillas de frases que rellena basándose 
en una serie de reglas programadas que aplica al texto que introduce su 
interlocutor. Los programadores del chatbot han incluido unas reglas 
lingúísticas que le permiten localizar la información clave en el texto 
introducido y almacenarla para su uso posterior. Además, el chatbot 
almacena una base de datos de «conocimiento de sentido común», 
codificado por programadores humanos, y algunas reglas lógicas; en teoría, 
estas le permiten responder a preguntas como «¿De qué color es el cielo de 
Vladivostok?» con frases de tipo humano como «Azul, supongo, salvo que 
esté nublado». Si el chatbot recibe una entrada para la que no sirve ninguna 
de sus reglas, se limita a cambiar de tema. Las reglas del sistema también 
codifican su «personaje»: en este caso, un chico ucraniano de trece años que 
habla inglés bien pero (convenientemente) no a la perfección. He aquí un 
ejemplo de la conversación de Eugene Goostman con uno de los jueces que 
se dejaron engañar: 

JUEZ: ¿Cuál es tu sexo? 

EUGENE: Soy un niño, si te interesa saberlo. Y no demasiado feo, por cierto. 

JUEZ: De qué eres consciente en este momento. 

EUGENE: Preferiría no hablar de ello, si no te importa. ¿Podrías decirme qué eres tú? Me refiero 

a tu profesión. 
JUEZ: ¿Cuántos años tienes? 
EUGENE: Soy un niño de trece años. 


JUEZ: ¿Qué cualificaciones tienes? 
EUGENE: ¿Qué cualificaciones tengo? No te lo voy a decir. No, no. ¿Algo más?[65] 


Después de la competición, los organizadores hicieron público un 
comunicado de prensa en el que anunciaban: «Por primera vez, después de 
sesenta y cinco años, un programa informático ha superado la emblemática 
prueba de Turing: el programa Eugene Goostman». Y afirmaban: «Resulta 


apropiado que se haya alcanzado un hito tan importante en la Royal Society 
de Londres, cuna de la ciencia británica y escenario de muchos grandes 
avances del conocimiento humano durante siglos. Este momento pasará a la 
historia como uno de los más emocionantes».[66] 

Los expertos en IA se burlaron unánimemente de esta caracterización. 
Cualquiera que conozca cómo se programan los chatbots puede ver 
claramente en las transcripciones de la competición que Eugene Goostman 
es un programa, y ni siquiera muy sofisticado. El resultado reveló más 
cosas sobre los jueces y la prueba en sí que sobre las máquinas. Con un 
plazo de cinco minutos y la tendencia a evitar preguntas difíciles a base de 
cambiar de tema o responder con otra pregunta, al programa le costó 
asombrosamente poco engañar a un juez no experto y hacerle creer que 
estaba conversando con una persona real. Es lo mismo que han demostrado 
muchos otros chatbots, desde ELIZA en los años setenta, que imitaba a un 
psicoterapeuta, hasta los malintencionados bots actuales de Facebook, que 
utilizan breves conversaciones mediante mensajes de texto para engañar a 
la gente y hacer que revele información personal. 

Por supuesto, estos robots se aprovechan de la tendencia que tenemos los 
humanos a antropomorfizar (¡tenías razón, mamá!). Estamos deseando 
atribuir Capacidad de comprensión y conciencia a los ordenadores, 
basándonos en pruebas escasas. 

Ese es el motivo de que la mayoría de los expertos en IA detesten la 
prueba de Turing, al menos tal como se ha practicado hasta ahora. 
Consideran que estas competiciones son trucos publicitarios cuyos 
resultados no sirven para conocer los avances de la IA. Pero, aunque Turing 
quizá sobrevalorase la capacidad de un «interrogador medio» de no dejarse 
engañar por ardides superficiales, ¿podría servir la prueba como indicador 
de la inteligencia real si se ampliara el tiempo de conversación y se exigiera 
más pericia a los jueces? 


Ray Kurzweil, actual director de ingeniería de Google, cree que una 
versión mejor diseñada de la prueba de Turing sí podría revelar la 
inteligencia de las máquinas; predice que algún ordenador superará la 
prueba en 2029, un hito en el camino hacia la Singularidad predicha por él. 


La Singularidad 


Ray Kurzweil es desde hace mucho tiempo el principal optimista de la IA. 
Antiguo alumno de Marvin Minsky en el MIT, Kurzweil ha tenido una 
carrera notable como inventor: creó la primera máquina de conversión de 
texto en voz y uno de los mejores sintetizadores musicales del mundo. En 
1999, el presidente Bill Clinton le concedió la Medalla Nacional de 
Tecnología e Innovación por estos y otros inventos. 

No obstante, a Kurzweil no se le conoce sobre todo por sus inventos, sino 
por sus pronósticos futuristas, entre los que destaca la idea de la 
Singularidad: «un periodo futuro en el que la velocidad de los cambios 
tecnológicos será tanta y sus repercusiones tan profundas que la vida 
humana se transformará de manera irreversible».[¡s7] Kurzweil utiliza el 
término singularidad en el sentido de «un acontecimiento único con 
implicaciones singulares»; en especial, «un acontecimiento capaz de rasgar 
el tejido de la historia humana».[68] Para Kurzweil, este acontecimiento 
singular será el instante en que la IA supere a la inteligencia humana. 

Las ideas de Kurzweil partían de las especulaciones del matemático 1. J. 
Good sobre las posibilidades de una explosión de inteligencia: «Definamos 
la máquina ultrainteligente como una máquina capaz de superar con creces 
todas las actividades intelectuales de cualquier ser humano, por inteligente 
que sea. Dado que el diseño de máquinas es una de estas actividades 
intelectuales, una máquina ultrainteligente podría diseñar máquinas todavía 
mejores; entonces se produciría sin la menor duda una “explosión de 
inteligencia”, y la inteligencia humana quedaría muy atrás».[69] También 
influyó en Kurzweil el matemático y autor de ciencia ficción Vernor Vinge, 


que creía que este acontecimiento estaba cerca: «La evolución de la 
inteligencia humana tardó millones de años. Nosotros concebiremos un 
avance equivalente en una fracción de ese tiempo. Pronto crearemos 
inteligencias superiores a la nuestra. Cuando ocurra, la historia humana 
habrá alcanzado una especie de singularidad [...] y el mundo estará fuera 
del alcance de nuestra comprensión».[70] 

Kurzweil toma la explosión de inteligencia como punto de partida y 
luego intensifica el aspecto de ciencia ficción con el paso de la IA a la 
nanociencia, luego a la realidad virtual y, de ahí, a la subida o descarga de 
cerebros», todo ello con un tono tranquilo y confiado propio de un oráculo 
de Delfos que mira un calendario y señala fechas concretas. Para hacernos 
una idea, he aquí algunas de las predicciones de Kurzweil: 


En la década de 2020, el ensamblaje molecular proporcionará herramientas para combatir la 
pobreza, limpiar el medio ambiente, superar enfermedades y prolongar la longevidad humana. 


A finales de la década de 2030 [...], la distribución generalizada de implantes cerebrales a 
partir de nanobots inteligentes aumentará enormemente nuestra memoria y mejorará todas las 
capacidades sensoriales, cognitivas y de reconocimiento de patrones de las personas. 


Subir un cerebro humano significa escanear todos los detalles fundamentales y reinstalarlos en 
un sustrato informático con la potencia adecuada. [...] Se puede decir sin miedo a equivocarse 
que para finales de la década de 2030 será posible subir [los cerebros].[71] 


Un ordenador superará la prueba de Turing de aquí a 2029.[72] 


Cuando lleguemos a la década de 2030, la conciencia artificial será muy realista. Eso es lo que 
significa superar la prueba de Turing.[73] 


He fijado la fecha de la Singularidad en 2045. La inteligencia no biológica creada ese año será 
mil millones de veces más poderosa que toda la inteligencia humana actual.[74] 


El escritor Andrian Kreye se refirió irónicamente a la predicción de 
Kurzweil sobre la Singularidad como «nada más que la fe en un rapto 
tecnológico».[75] 

Kurzweil basa todas sus predicciones en la idea del «progreso 
exponencial» en muchos ámbitos de la ciencia y la tecnología, 


especialmente la informática. Para desentrañar esta idea, veamos qué es el 
crecimiento exponencial. 


Una fábula exponencial 


Para ilustrar de forma sencilla el crecimiento exponencial, contaré una vieja 
fábula. Hace mucho tiempo, un famoso sabio de una aldea pobre y 
hambrienta visitó un reino lejano y rico cuyo rey le retó a una partida de 
ajedrez. El sabio se resistía a aceptar, pero el rey insistió y ofreció al sabio 
como recompensa «cualquier cosa que desees, si eres capaz de derrotarme 
en una partida». Por el bien de su pueblo, el sabio acabó aceptando y (como 
suelen hacer los sabios) ganó la partida. El rey pidió al sabio que dijera qué 
recompensa quería. El sabio, al que le gustaban las matemáticas, dijo: «Lo 
único que te pido es que cojas este tablero de ajedrez y pongas dos granos 
de arroz en la primera casilla, cuatro granos en la segunda, ocho granos en 
la tercera, y así sucesivamente, el doble de granos en cada casilla sucesiva. 
Después de completar cada fila, empaqueta el arroz que haya en ella y 
envíalo a mi aldea». El rey, que no entendía de matemáticas, se echó a reír. 
«¿No quieres nada más? Voy a ordenar a mis hombres que traigan arroz 
para cumplir tu petición cuanto antes». 

Los hombres del rey llevaron un gran saco de arroz. Al cabo de unos 
minutos, habían llenado las ocho primeras casillas del tablero con los 
granos de arroz correspondientes: 2 en la primera casilla, 4 en la segunda, 8 
en la tercera y así sucesivamente, hasta 256 granos en la octava casilla. Los 
pusieron todos (quinientos once, para ser exactos) en una bolsa pequeña y la 
enviaron a caballo a la aldea del sabio. Luego pasaron a la segunda fila, con 
512 granos en el primer cuadrado, 1.024 granos en el siguiente y 2.048 
granos en el siguiente. Los montoncitos de arroz ya no cabían en cada 
cuadrado del tablero, así que, en su lugar, se contaban y se iban poniendo en 
un gran cuenco. Al final de la segunda fila ya se tardaba demasiado en 
contar los granos, así que los matemáticos de la corte empezaron a calcular 


las cantidades por el peso. Calcularon que para la decimosexta casilla se 
necesitaban 65.536 granos, aproximadamente un kilogramo (algo más de 
dos libras). El saco que se envió con el arroz de la segunda fila pesaba 
alrededor de dos kilos. 

Los hombres del rey empezaron con la tercera fila. Para el 
decimoséptimo cuadrado hacían falta dos kilos, para el decimoctavo cuatro, 
y así sucesivamente; en la última casilla de la tercera fila (la número 24), 
hacían falta quinientos doce kilos. El rey ordenó a sus súbditos que llevaran 
más sacos gigantescos de arroz. La situación se volvió insostenible en la 
segunda casilla de la cuarta fila (cuadrado número 26), cuando los 
matemáticos calcularon que hacían falta 2.048 kilos (más de dos toneladas) 
de arroz. Si se entregaban, se agotaría toda la cosecha de arroz del reino, y 
eso que el tablero de ajedrez no estaba ni siquiera a medio completar. El rey 
se dio cuenta de que se la habían jugado y rogó al sabio que cediera y 
salvara al reino de morir de hambre. El sabio, satisfecho con que la cantidad 
de arroz enviada a su pueblo ya era suficiente, accedió. 

La figura 5A muestra el número de kilos de arroz necesarios en cada 
casilla de ajedrez hasta la vigesimocuarta casilla. La primera casilla, con 
dos granos de arroz, tiene una mínima fracción de kilo. Todas las casillas 
hasta la dieciséis tienen menos de un kilo. Pero, a partir de ella, el gráfico se 
dispara por el efecto de las multiplicaciones por dos. La figura 5B muestra 
los valores de la casilla veinticuatro a la sesenta y cuatro, desde quinientos 
doce kilos hasta más de treinta billones. 
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Figura 5. Gráficos que muestran cuántos kilos de arroz se necesitan en cada casilla de 
ajedrez para satisfacer la petición del sabio; A, casillas 1-24 (donde el eje y muestra cientos 
de kilos); B, casillas 24-64 (donde el eje y muestra decenas de billones de kilos). 


La función matemática que describe este gráfico es y = 2%, donde x es la 
casilla de ajedrez (numerada del 1 al 64) e y es el número de granos de 
arroz correspondientes a esa casilla. Se llama función exponencial porque x 
es el exponente del número 2. Sea cual sea la escala de representación, la 
función tendrá un punto concreto en el que la curva parece dejar de crecer 
despacio para ascender a toda velocidad. 


Progreso exponencial en informática 


En opinión de Ray Kurzweil, la era del ordenador ha proporcionado un 
equivalente real a la fábula exponencial. En 1965, Gordon Moore, 


cofundador de Intel Corporation, descubrió una tendencia que pasó a 
llamarse la ley de Moore: el número de componentes de un chip de 
ordenador se multiplica por dos aproximadamente cada uno o dos años. Es 
decir, los componentes se reducen (y se abaratan) de forma exponencial y la 
velocidad y la memoria de los ordenadores aumentan a una velocidad 
también exponencial. 

Los libros de Kurzweil están llenos de gráficos como los de la figura 5; y 
las extrapolaciones de estas tendencias de progreso exponencial, con 
arreglo a la ley de Moore, son la base de sus predicciones sobre la IA. 
Kurzweil señalaba que si las tendencias continuaban (como creía que 
sucedería), un ordenador de mil dólares «alcanzará la capacidad del cerebro 


humano (1016 cálculos por segundo) hacia el año 2023».[76] En ese 
momento, en opinión de Kurzweil, contar con una IA de nivel humano 
dependería solo de un poco de ingeniería inversa del cerebro. 


Ingeniería neuronal 


La ingeniería inversa del cerebro significa comprender su funcionamiento 
lo bastante como para duplicarlo o, al menos, utilizar sus principios 
fundamentales para reproducir su inteligencia en un ordenador. Kurzweil 
cree que la ingeniería inversa es un método práctico e inmediato para crear 
una IA de nivel humano. La mayoría de los neurocientíficos discreparían 
enérgicamente, dado lo poco que se sabe todavía sobre el funcionamiento 
del cerebro. Pero el argumento de Kurzweil se apoya de nuevo en 
tendencias exponenciales, esta vez referidas a los avances de la 
neurociencia. En 2002 escribió: «Un análisis detallado de las tendencias 
relevantes muestra que comprenderemos los principios del funcionamiento 
del cerebro humano y estaremos en condiciones de reproducir sus poderes 
en sustancias sintéticas mucho antes de treinta años».[77] 

Pocos neurocientíficos, si es que hay alguno, coinciden con esta 
predicción tan optimista sobre su sector. Pero incluso si se puede crear una 


máquina que funcione con arreglo a los principios del cerebro, ¿cómo va a 
aprender todo lo que necesita saber para considerarla inteligente? Al fin y al 
cabo, un recién nacido tiene cerebro, pero no tiene todavía lo que podemos 
considerar inteligencia humana. Kurzweil está de acuerdo: «La complejidad 
[del cerebro] procede sobre todo de su propia interacción con un mundo 
complejo. Por tanto, la inteligencia artificial deberá ser educada igual que se 
educa la inteligencia natural».[78] 

Una educación puede tardar muchos años, desde luego. Pero Kurzweil 
cree que el proceso puede acelerarse muchísimo. «La electrónica 
contemporánea ya es más de diez millones de veces más rápida que el 
procesamiento electroquímico de la información que lleva a cabo el sistema 
nervioso humano. Cuando una IA posea las habilidades lingüísticas básicas 
de los humanos, podrá leer con gran rapidez toda la literatura humana y 
absorber los conocimientos contenidos en millones de páginas web, lo que a 
su vez le permitirá ampliar sus habilidades lingúísticas y sus conocimientos 
generales».[79] 

Kurzweil no dice exactamente cómo ocurrirá todo esto, pero asegura que 
para lograr una IA de nivel humano, «no programaremos la inteligencia 
humana eslabón por eslabón como en un gran sistema experto, sino que 
estableceremos una intrincada jerarquía de sistemas autoorganizados, 
basados fundamentalmente en la ingeniería inversa del cerebro humano, y 
luego nos encargaremos de educarlos [...] cientos e incluso miles de veces 
más deprisa que en el proceso comparable para los humanos».[80] 


Escépticos y partidarios de la Singularidad 


Las reacciones que suscitan los libros de Kurzweil La era de las máquinas 
espirituales (1999) y La Singularidad está cerca (2005) suelen situarse en 
dos extremos: O la acogida entusiasta o el escepticismo y el desprecio. 
Cuando yo leí estos dos libros, me sentí (y me sigo sintiendo) más en este 
último bando. No me convencieron en absoluto ni el exceso de curvas 


exponenciales ni los argumentos a favor de la ingeniería inversa del 
cerebro. Es verdad que Deep Blue había derrotado a Kasparov en ajedrez, 
pero la IA estaba muy por debajo del nivel de los humanos en la mayoría de 
los demás campos. Las predicciones de Kurzweil de que la IA iba a 
alcanzamos en apenas un par de décadas me parecían de un optimismo 
ridículo. 

La mayoría de la gente que conozco es tan escéptica como yo. La postura 
general sobre la IA se refleja a la perfección en un artículo de la periodista 
Maureen Dowd, que cuenta que cuando le mencionó el nombre de Kurzweil 
a Andrew Ng, un famoso investigador en IA de Stanford, este la miró con 
gesto de aburrimiento y dijo: «Cada vez que leo La Singularidad de 
Kurzweil, los ojos se me van hacia el techo».[81] Por otro lado, las ideas de 
Kurzweil tienen muchos adeptos. La mayoría de sus libros han tenido gran 
éxito de ventas y han recibido críticas positivas en publicaciones serias. La 
revista Time declaró sobre La Singularidad: «No es ninguna idea radical; es 
una hipótesis seria sobre el futuro de la vida en la Tierra».[82] 

Las ideas de Kurzweil han influido especialmente en la industria 
tecnológica, donde la gente suele confiar en el progreso tecnológico 
exponencial como medio para resolver todos los problemas de la sociedad. 
Además de ser uno de los directores de ingeniería de Google, Kurzweil es 
cofundador (junto con el empresario futurista Peter Diamandis) de 
Singularity University (SU), un laboratorio de ideas «transhumanista», 
incubadora de empresas emergentes y, en ocasiones, campamento de verano 
para la élite tecnológica. SU declara que su misión es «educar, inspirar y 
enseñar a los líderes a emplear tecnologías exponenciales para abordar los 
grandes problemas de la humanidad».[83] El instituto está financiado en 
parte por Google; Larry Page (cofundador de Google) fue uno de sus 
primeros patrocinadores y es un ponente habitual en los programas de SU. 
También son patrocinadoras otras empresas tecnológicas de renombre. 
Entre los teóricos, Douglas Hofstadter —que vuelve a sorprenderme— 


oscila entre el escepticismo y la preocupación por la Singularidad. Me dijo 
que le molestaba que los libros de Kurzweil «mezclaran las perspectivas 
más chifladas, propias de la ciencia ficción, con cosas que eran claramente 
reales». Cuando se lo discutí, Hofstadter indicó que, desde la perspectiva de 
los años transcurridos, entre las predicciones aparentemente enloquecidas 
de Kurzweil, muchas veces había alguna que asombrosamente ya se había 
hecho realidad o le faltaba poco para ello. ¿Habrá en la década de 2030 
«“emisores de experiencias” [...] que enviarán a la web toda una avalancha 
de experiencias sensoriales, además de los correlatos neurológicos de sus 
reacciones emocionales»?/84] Parece una locura. Pero, a finales de los 
ochenta, Kurzweil, a partir de sus curvas exponenciales, predijo que para 
1998 «un ordenador derrotará al campeón mundial de ajedrez [...] y, como 
consecuencia, valoraremos menos el ajedrez».[85] En su momento, aquello 
también les pareció a muchos una locura. Pero lo que había predicho 
Kurzweil ocurrió un año antes de lo que había indicado. 

Hofstadter ha destacado el hábil uso que hace Kurzweil de lo que él 
llama «la estrategia de Cristóbal Colón»,[86] en referencia a la canción de 
Ira Gershwin «They All Laughed», que incluye la frase «Todos se rieron de 
Cristóbal Colón». Kurzweil menciona numerosas citas de importantes 
personajes históricos que infravaloraron por completo el progreso y los 
efectos de la tecnología. He aquí algunos ejemplos. El presidente de IBM, 
Thomas J. Watson, en 1943: «Creo que hay mercado mundial 
aproximadamente para cinco ordenadores». Ken Olsen, cofundador de 
Digital Equipment Corporation, en 1977: «No hay motivos para que nadie 
tenga un ordenador particular en casa». Bill Gates en 1981: «640.000 bytes 
de memoria deberían ser suficientes para cualquiera».[87] Hofstadter, con el 
resquemor de haberse equivocado en sus propias predicciones sobre el 
ajedrez y los ordenadores, no se atrevía a descartar sin más las ideas de 
Kurzweil, por muy disparatadas que parecieran. «Como la derrota de 
Kasparov frente a Deep Blue, desde luego, da que pensar».[88] 


Una apuesta sobre la prueba de Turing 


Como carrera profesional, el trabajo de «futurista» no está nada mal. 
Escribes libros con predicciones que no podrán evaluarse hasta dentro de 
varias décadas y cuya validez, cuando llegue el momento, no afectará a tu 
reputación ni a las ventas actuales de tus libros. En 2002 se creó un sitio 
web llamado Long Bets para contribuir a la honradez de los futuristas. Long 
Bets es «un espacio para hacer predicciones competitivas y responsables», 
[89] en el que un «pronosticador» hace una predicción a largo plazo, 
especificando una fecha, y un «contrincante» la pone en duda, y los dos 
apuestan un dinero que el que gane cobrará después de la fecha de la 
predicción. El primer pronosticador de la web fue el empresario informático 
Mitchell Kapor, con una predicción negativa: «En 2029 ningún ordenador 
—ni “inteligencia artificial” — habrá superado la prueba de Turing». Kapor, 
que había fundado con éxito la empresa de sistemas Lotus y que además es 
un veterano activista de las libertades civiles en internet, conocía bien a 
Kurzweil y estaba en el bando de los «muy escépticos» sobre la 
Singularidad. Kurzweil aceptó ser su contrincante en esta apuesta pública; 
se jugaron veinte mil dólares que irán destinados a la Electronic Frontier 
Foundation (cofundada por Kapor) si ganaba este y a la Kurzweil 
Foundation si ganaba este último. La prueba para determinar el ganador se 
llevará a cabo antes de que acabe 2029. 

Al hacer esta apuesta, Kapor y Kurzweil tuvieron que concretar 
minuciosamente por escrito —a diferencia de Turing— cómo se iba a 
desarrollar su prueba de Turing. Comienza con unas cuantas definiciones 
necesarias. «Un humano es una persona biológicamente humana, tal como 
se entiende este término en el año 2001, cuya inteligencia no se ha 
mejorado con el uso de ninguna inteligencia artificial (es decir, no 
biológica). [...] Un ordenador es cualquier forma de inteligencia no 
biológica (hardware y software) y puede incluir cualquier forma de 
tecnología, pero no puede ser un ser biológicamente humano (mejorado o 


no) ni una serie de neuronas biológicas (aunque sí se permiten imitaciones 
no biológicas de neuronas biológicas)».[90] 

Los términos de la apuesta también especifican que la prueba la llevarán 
a Cabo tres jueces humanos que entrevistarán al competidor informático y a 
tres «complementos» humanos. Los cuatro rivales intentarán convencer a 
los jueces de que son humanos. Los jueces y los competidores humanos los 
elegirá un «comité de prueba de Turing», formado por Kapor, Kurzweil (o 
quienes ellos designen) y un tercer miembro. En lugar de charlas de cinco 
minutos, cada uno de los jueces entrevistará a cada competidor nada menos 
que durante dos horas. Al final de todas las entrevistas, cada juez dará su 
veredicto («humano» o «máquina») sobre cada uno. «Se considerará que el 
ordenador ha superado la «prueba de Turing para determinar si es humano» 
si consigue engañar al menos a dos de los tres jueces humanos y hacerles 
creer que es humano».[91] 

Pero la cosa no termina ahí: 

Además, cada uno de los tres jueces de la prueba de Turing clasificará a los cuatro candidatos 

con una nota del 1 (menos humano) al 4 (más humano). Se considerará que el ordenador ha 

superado la «prueba de clasificación de la prueba de Turing» si la nota media del ordenador es 

igual o superior a la nota media de dos o más de los tres candidatos humanos de la prueba de 

Turing. 

Se considerará que el ordenador ha superado la prueba de Turing si supera tanto la prueba 
para determinar si es humano dentro de la prueba de Turing como la prueba de clasificación. 
Si un ordenador supera la prueba de Turing según los criterios mencionados antes de que 


termine el año 2029, entonces Ray Kurzweil ganará la apuesta. En caso contrario, ganará la 
apuesta Mitchell Kapor.[92] 


Menudas exigencias. Eugene Goostman no tendría ninguna posibilidad. Yo 
no tendría más remedio que estar de acuerdo (con todas las cautelas) con 
esta valoración de Kurzweil: «En mi opinión, no hay trucos ni algoritmos 
más sencillos (es decir, métodos más sencillos que aquellos en los que se 
apoya la inteligencia humana) que permitan a una máquina superar una 
prueba de Turing debidamente diseñada si no posee una inteligencia de 
nivel completamente humano».[93] 


Además de exponer las reglas de su apuesta a largo plazo, Kapor y 
Kurzweil escribieron sendos ensayos en los que explicaban los motivos por 
los que cada uno creía que iba a ganar. El ensayo de Kurzweil resume los 
argumentos presentes en sus libros: los progresos exponenciales en 
computación, neurociencia y nanotecnología, que, todos juntos, harán 
posible la ingeniería inversa del cerebro. 

Kapor no se lo cree. Su principal argumento se centra en la influencia que 
tienen nuestro cuerpo físico (humano) y nuestras emociones en nuestra 
cognición. «La percepción del entorno y la interacción [física] con él 
contribuyen a partes iguales con la cognición a formar la experiencia [...]. 
[Las emociones] delimitan y dan forma a lo pensable».[94] Kapor afirma que 
sin el equivalente de un cuerpo humano, con todo lo que implica, una 
máquina nunca podrá aprender todo lo necesario para superar la estricta 
prueba de Turing suya y de Kurzweil. 

Afirmo que el modo fundamental de aprendizaje de los seres humanos es a través de la 

experiencia. El aprendizaje a través de los libros es una capa que se superpone. [...] Si el 

conocimiento humano, en especial el conocimiento sobre la experiencia, es en gran parte 

tácito, es decir, nunca se expresa de forma directa y explícita, no se encontrará en los libros, y 


el enfoque de Kurzweil sobre la adquisición de conocimientos fracasará. [...] El problema no 
está en lo que el ordenador sabe, sino en lo que no sabe ni puede saber.[95] 


Kurzweil responde que está de acuerdo con Kapor sobre el papel del 
aprendizaje experimental, el conocimiento tácito y las emociones, pero cree 
que antes de la década de 2030 la realidad virtual será «totalmente realista», 
[96] hasta el punto de poder reproducir las experiencias físicas necesarias 
para educar a una inteligencia artificial en desarrollo. (Bienvenidos a 
Matrix). Además, esta inteligencia artificial tendrá un cerebro artificial 
creado con ingeniería inversa, uno de cuyos elementos fundamentales será 
la emoción. 

¿Ve usted las predicciones de Kurzweil con escepticismo, como Kapor? 
Kurzweil dice que es porque no entiende los exponenciales. «En general, mi 
principal discrepancia con los críticos es que dicen que no valoro 


suficientemente la complejidad de la ingeniería inversa del cerebro humano 
ni la complejidad de la biología. Pero no creo que yo esté minusvalorando 
el problema. Creo que ellos están minusvalorando el poder del crecimiento 
exponencial».[97] 

Los que dudan de Kurzweil señalan que este argumento tiene un par de 
fallos. Es cierto que los ordenadores han tenido un progreso exponencial en 
las últimas cinco décadas, pero hay muchas razones para pensar que esta 
tendencia no va a continuar en el futuro. (Kurzweil, por supuesto, no está de 
acuerdo). Pero, sobre todo, los programas informáticos no han tenido el 
mismo progreso exponencial; es difícil defender que el software actual es 
exponencialmente más sofisticado, más parecido al cerebro, que el software 
de hace cincuenta años, o incluso que alguna vez haya habido esa 
tendencia. También son muy discutidas las afirmaciones de Kurzweil sobre 
las tendencias exponenciales de la neurociencia y la realidad virtual. 

Pero como señalan los partidarios de la Singularidad, a veces es difícil 
ver una tendencia exponencial si estamos dentro de ella. En una curva 
exponencial como las de la figura 5, Kurzweil y sus seguidores imaginan 
que estamos en ese punto en el que la curva empieza a crecer poco a poco y 
nos parece un progreso gradual, pero es engañoso: en realidad, el 
crecimiento está a punto de dispararse. 

¿La primavera actual de la IA es, como aseguran muchos, el primer 
anuncio de una próxima explosión? ¿O no es más que un punto intermedio 
en una curva de crecimiento lento y gradual que no desembocará en una IA 
de nivel humano hasta dentro de un siglo? ¿O es otra burbuja de IA, a la 
que pronto seguirá otro invierno de IA? 

Para orientarnos mejor sobre estas dudas, debemos examinar con detalle 
algunas de las aptitudes fundamentales que hacen distinta la inteligencia 
humana, como la percepción, el lenguaje, la toma de decisiones, el 
razonamiento basado en el sentido común y el aprendizaje. En los próximos 


capítulos veremos hasta dónde la IA ha sido capaz de absorber estas 
aptitudes y valoraremos las perspectivas para 2029 y más adelante. 


[49] Q. V. Le et al., «Building High-Level Features Using Large-Scale Unsupervised Learning», 
en Proceedings of the International Conference on Machine Learning (2012), pp. 507-514. 

[50] P. Hoffman, «Retooling Machine and Man for Next Big Chess Faceoff», The New York Times, 
21 de enero de 2003. 

[51] D. L. McClain, «Chess Player Says Opponent Behaved Suspiciously», The New York Times, 
28 de septiembre de 2006. 

[52] Citado en M. Y. Vardi, «Artificial Intelligence: Past and Future», Communications of the 
Association for Computing Machinery 55, n.° 1 (2012), p. 5. 

[53] K. Kelly, «The Three Breakthroughs That Have Finally Unleashed AI on the World», Wired, 
27 de octubre de 2014. 

[54] J. Despres, «Scenario: Shane Legg», Future, consultado el 4 de diciembre de 2018, 
future.wikia.com/wiki/Scenario:ShaneLegg. 

[55] Citado en H. McCracken, «Inside Mark Zuckerberg's Bold Plan for the Future of Facebook», 
Fast Company, 16 de noviembre de 2015, www.fastcompany.com/ 3052885/mark-zuckerberg- 
facebook. 

[56] V. C. Miiller y N. Bostrom, «Future Progress in Artificial Intelligence: A Survey of Expert 
Opinion», en Fundamental Issues of Artificial Intelligence, ed. de V. C. Müller, Cham, Suiza: 
Springer International, 2016, pp. 555-572. 

[57] M. Loukides y B. Lorica, «What Is Artificial Intelligence?», O”Reilly, 20 de junio de 2016, 
www.oreilly.com/ideas/what-is-artificial-intelligence. 

[58] S. Pinker, «Thinking Does Not Imply Subjugating», en What to Think About Machines That 
Think, ed. de J. Brockman, Nueva York: Harper Perennial, 2015, pp. 5-8. 

[59] A. M. Turing, «Computing Machinery and Intelligence», Mind 59, n.° 236 (1950), pp. 433- 
460. 

[60] J. R. Searle, «Minds, Brains, and Programs», Behavioral and Brain Sciences 3, (1980), pp. 
417-424. 

[61] J. R. Searle, Mind: A Brief Introduction, Oxford: Oxford University Press, 2004, p. 66. 

[62] Los términos JA fuerte e IA débil también se han utilizado para referirse a algo más parecido a 
IA general e IA estrecha. Así es como los utiliza Ray Kurzweil, pero difiere del significado original 
de Searle. 

[63] El artículo de Searle se reproduce en D. R. Hofstadter y D. C. Dennett, The Minds I: 
Fantasies and Reflections on Self and Soul (Nueva York: Basic Books, 1981), junto con un 
convincente contraargumento de Hofstadter. 

[64] S. Aaronson, Quantum Computing Since Democritus, Cambridge, R.U.: Cambridge 
University Press, 2013, p. 33. 


[65] «Turing Test Transcripts Reveal How Chatbot “Eugene” Duped the Judges», Coventry 
University, 30 de junio de 2015, www.coventry.ac.uk/primary-news/turingtest-transcripts-reveal- 
how-chatbot-eugene-duped-the-judges/. 

[66] «Turing Test Success Marks Milestone in Computing History», University of Reading, 8 de 
junio de 2014, www.reading.ac.uk/news-and-events/releases/PR583836.aspx. 

[67] R. Kurzweil, The Singularity Is Near: When Humans Transcend Biology, Nueva York: Viking 
Press, 2005, p. 7. 

[68] Ibid., pp. 22-23. 

[69] I. J. Good, «Speculations Concerning the First Ultraintelligent Machine», Advances in 
Computers 6 (1966), pp. 31-88. 

[70] V. Vinge, «First Word», Omni, enero de 1983. 

[71] Kurzweil, Singularity Is Near, pp. 241, 317, 198-199. 

[72] B. Wang, «Ray Kurzweil Responds to the Issue of Accuracy of His Predictions», Next Big 
Future, 19 de enero de 2010, www.nextbigfuture.com/2010/01/ray-kurzweil-responds-to-issue- 
of.html. 

[73] D. Hochman, «Reinvent Yourself: The Playboy Interview with Ray Kurzweil», Playboy, 19 
de abril de 2016, www.playboy.com/articles/playboy-interview-ray-kurzweil. 

[74] Kurzweil, Singularity Is Near, p. 136. 

[75] A. Kreye, «A John Henry Moment», en Brockman, What to Think About Machines That 
Think, pp. 394-396. 

[76] Kurzweil, Singularity Is Near, p. 494. 

[77] R. Kurzweil, «A Wager on the Turing Test: Why I Think I Will Win», Kurzweil AI, 9 de abril 
de 2002, www. kurzweilai.net/a-wager-on-the-turing-test-why-i-think-i-will-win. 

[78] Ibid. 

[79] Ibid. 

[80] Ibid. 

[81] M. Dowd, «Elon Musk’s Billion-Dollar Crusade to Stop the A.I. Apocalypse», Vanity Fair, 26 
de marzo de 2017. 

[82] L. Grossman, «2045: The Year Man Becomes Immortal», Time, 10 de febrero de 2011. 

[83] Del sitio web de la Singularity University, consultado el 4 de diciembre de 2018, 
su.org/about/. 

[84] Kurzweil, Singularity Is Near, p. 316. 

[85] R. Kurzweil, The Age of Spiritual Machines: When Computers Exceed Human Intelligence, 
Nueva York: Viking Press, 1999, p. 170 [trad. cast.: La era de las mdquinas individuales: cuando los 
ordenadores superen la mente humana, Barcelona: Planeta, 1999]. 

[86] D. R. Hofstadter, «Moore’s Law, Artificial Evolution, and the Fate of Humanity», en 
Perspectives on Adaptation in Natural and Artificial Systems, ed. de L. Booker et al., Nueva York: 
Oxford University Press, 2005, p. 181. 

[87] Todas estas citas proceden de Kurzweil, Age of Spiritual Machines, pp. 169-170. 

[88] Hofstadter, «Moore’s Law, Artificial Evolution, and the Fate of Humanity», p. 182. 


[89] Del sitio web de Long Bets: longbets.org/about. 

[90] Del sitio web de Longs Bet 1: longbets.org/1/#adjudication_terms. 

[91] Ibid. 

[92] Ibid. 

[93] Kurzweil, «Wager on the Turing Test». 

[94] M. Kapor, «Why I Think I Will Win», Kurzweil AI, 9 de abril de 2002, 
http://www. kurzweilai.net/why-i-think-i-will-win. 

[95] Ibid. 

[96] R. Kurzweil, prólogo a Virtual Humans, de P. M. Plantec, Nueva York: AMACOM, 2004. 

[97] Citado en Grossman, «2045». 


PARTE Il 


MIRAR Y VER 


04 


Quién, qué, cuándo, 
dónde, por qué 


Mire la foto de la figura 6 (en la pagina siguiente) y diga qué ve. Una 
mujer acariciando a un perro. Una soldado acariciando a un perro. Una 
soldado que acaba de volver de la guerra a la que su perro recibe con flores 
y un globo en el que se lee «Bienvenida a casa». La cara de la soldado 
muestra su mezcla de emociones. El perro mueve alegremente la cola. 
¿Cuándo se hizo esta foto? Probablemente en los últimos diez años. 
¿Dónde? Probablemente en un aeropuerto. ¿Por qué acaricia la soldado al 
perro? Probablemente ha estado fuera mucho tiempo, ha vivido muchas 
cosas, buenas y malas, ha echado mucho de menos al perro y está muy 
contenta de volver a casa. Quizá el perro es el símbolo de todo lo que 
significa «casa». ¿Qué pasó justo antes de que se hiciera esta foto? 
Probablemente la soldado bajó de un avión y recorrió la parte restringida 
del aeropuerto hasta el lugar de recepción de los viajeros. Su familia o sus 
amigos la acogieron con abrazos, le dieron las flores y el globo, y soltaron 
la correa del perro. El perro se acercó a la soldado, que dejó todo lo que 
llevaba y se arrodilló, con cuidado de sujetar la cuerda del globo bajo la 
rodilla para evitar que saliera volando. ¿Qué pasará después? 
Probablemente se levantará, se secará las lágrimas, cogerá las flores, el 


globo, el ordenador portátil y la correa del perro, y se irá con él y la familia 
o los amigos a la zona de recogida de equipajes. 

Cuando miramos esta imagen, lo primero que vemos son trazos de tinta 
en una página (o píxeles en una pantalla). Pero nuestros ojos y nuestro 
cerebro son capaces de asimilar esa información en bruto y, en pocos 
segundos, transformarla en una historia detallada que incluye seres vivos, 
objetos, relaciones, lugares, emociones, motivos y acciones pasadas y 
futuras. Miramos, vemos y entendemos. Y, sobre todo, sabemos qué no 
tener en cuenta. Hay muchos aspectos de la foto que no son estrictamente 
necesarios para entender la historia que nos cuenta: el dibujo de la 
alfombra, las correas que cuelgan de la mochila de la soldado, el silbato 


enganchado en la correa, los pasadores que lleva en el pelo. 
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Figura 6. ¿Qué ve en esta foto? 


Los seres humanos procesamos ese enorme volumen de información en 
muy poco tiempo sin ser apenas conscientes de lo que hacemos o de cómo 
lo hacemos. Salvo para una persona ciega de nacimiento, el procesamiento 
visual, en varios grados de abstracción, domina el cerebro. 


Desde luego, la capacidad de describir así el contenido de una fotografía 
(o un vídeo, o una retransmisión en directo desde una cámara) sería una de 
las primeras cosas que exigiríamos de una IA general de nivel humano. 


Las cosas fáciles son difíciles (sobre todo en la 
visión) 

Los investigadores sobre IA se dedican desde los años cincuenta a tratar de 
conseguir que los ordenadores encuentren sentido a los datos visuales. En 
los primeros tiempos de la IA, ese era un objetivo que parecía relativamente 
sencillo. En 1966, Marvin Minsky y Seymour Papert —los profesores del 
MIT promotores de la IA simbólica que vimos en el capítulo 1— 
propusieron el Proyecto Visión de Verano, en el que escogerían a 
estudiantes universitarios para trabajar en «la construcción de una parte 
significativa de un sistema visual».[98] En palabras de un historiador de la 
IA, «Minsky contrató a un alumno de primer curso y le asignó un problema 
para que lo resolviera durante el verano: conectar una cámara de televisión 
a un ordenador y conseguir que este describiera lo que veía».[99] 

El alumno no llegó muy lejos. Y aunque el subcampo de la IA llamado 
visión por ordenador ha progresado enormemente en las décadas 
transcurridas desde aquel proyecto de verano, todavía parece imposible un 
programa capaz de mirar y describir fotografías de la misma forma que lo 
hacen los seres humanos. Resulta que la visión —tanto mirar como ver—es 
una de las cosas más difíciles de todas las «fáciles». 

Una condición previa indispensable para describir los estímulos visuales 
es saber reconocer objetos, es decir, identificar un grupo concreto de píxeles 
en una imagen como una categoría de objeto determinada, por ejemplo 
«mujer», «perro», «globo» u «ordenador portátil». Reconocer objetos suele 
ser una tarea tan inmediata y sencilla para los humanos que no parecía que 
fuera a ser un problema especialmente difícil para los ordenadores, hasta 
que los investigadores de IA intentaron que lo hicieran. 


¿Por qué es tan difícil el reconocimiento de objetos? Pensemos, por 
ejemplo, en el problema de conseguir que un programa informático 
reconozca perros en fotografías. La figura 7 (en la página siguiente) 
muestra algunas de las dificultades. Si los datos no son más que los píxeles 
de la imagen, el programa tiene que averiguar primero cuáles son píxeles 
«de perro» y cuáles son píxeles «de no perro» (por ejemplo, fondo, 
sombras, otros objetos). Además, los perros pueden ser muy distintos: 
pueden tener diferente color, forma y tamaño; pueden estar mirando en 
distintas direcciones; la luz puede variar de forma considerable entre unas 
imágenes y otras; puede haber partes del perro ocultas por otros objetos 
(por ejemplo, vallas, personas). Los «píxeles de perro» pueden parecerse 
mucho a los «píxeles de gato» u otros animales. En ciertas condiciones de 
luz, incluso una nube del cielo puede parecerse mucho a un perro. 


Figura 7. Reconocimiento de objetos: fácil para los humanos, difícil para los ordenadores. 


La investigación de la visión por ordenador se ha enfrentado a estos y 
otros problemas desde los años cincuenta. Hasta hace poco, una de las 
principales tareas de los investigadores sobre este tema era desarrollar 
algoritmos especializados en procesamiento de imágenes capaces de 
identificar «características invariables» de los objetos que pudieran 
utilizarse para reconocerlos a pesar de las dificultades que he enumerado. 
Pero incluso con un procesamiento de imágenes avanzado, la capacidad de 
los programas de reconocimiento de objetos seguía siendo muy inferior a la 
de los humanos. 


La revolución del aprendizaje profundo 


La capacidad de las máquinas para reconocer objetos en imágenes y vídeos 
experimentó un salto cualitativo en la década de 2010 gracias a los avances 
en el área denominada del aprendizaje profundo. 

«Aprendizaje profundo» se refiere sencillamente a los métodos para 
entrenar las «redes neuronales profundas», que, a su vez, designan unas 
redes neuronales con más de una capa oculta. Recordemos que las capas 
ocultas son las capas de una red neuronal situadas entre la entrada y la 
salida. La profundidad de una red es el número de capas ocultas que tiene: 
una red «superficial» —como la que vimos en el capítulo 2— no tiene más 
que una capa oculta; una red «profunda» tiene más. Conviene subrayar esta 
definición: «profundo», en el aprendizaje profundo, no se refiere a la 
complejidad de lo que se aprende; solo se refiere a la profundidad de la red 
que se entrena, medida en número de capas. 

Hace ya varias décadas que se investiga sobre redes neuronales 
profundas. Lo que ha hecho que ahora sean una revolución es su increíble 
éxito reciente en muchas tareas de IA. Los investigadores han descubierto 
que las redes profundas que mejor funcionan son aquellas cuya estructura 
imita partes del sistema visual del cerebro. Las redes neuronales multicapa 
«tradicionales» que describí en el capítulo 2 se inspiran en el cerebro, pero 
su estructura es muy distinta. En cambio, las redes neuronales que dominan 
el aprendizaje profundo están construidas directamente basándose en los 
descubrimientos de la neurociencia. 


El cerebro, el neocognitrón y las redes 
neuronales convolucionales 


Más o menos en la misma época en que Minsky y Papert proponían su 
Proyecto Visión de Verano, había dos neurocientíficos inmersos en un 
estudio que se prolongó durante varias décadas y que iba a modificar por 
completo nuestra comprensión de la visión —y en especial el 


reconocimiento de objetos— en el cerebro. Posteriormente, David Hubel y 
Torsten Wiesel recibieron el Premio Nobel por sus descubrimientos sobre la 
organización jerárquica de los sistemas de visión de los felimos y los 
primates (incluidos los humanos), y por su explicación de cómo el sistema 
visual transforma la luz que llega a la retina en información sobre lo que 
está en la escena. 

Los hallazgos de Hubel y Wiesel inspiraron a un ingeniero japonés 
llamado Kunihiko Fukushima, que en los años setenta desarrolló una de las 
primeras redes neuronales profundas, el cognitrón, y su sucesora, el 
neocognitrón. En sus artículos, Fukushima plasmaba algunos éxitos 
logrados en el entrenamiento del neocognitrón para reconocer cifras escritas 
a mano (como los que mostré en el capítulo 1), pero los métodos 
específicos de aprendizaje que había utilizado no parecían servir para tareas 
visuales más complejas.[1007 Aun así, el neocognitrón fue una fuente de 
inspiración importante para otras formas posteriores de enfocar las redes 
neuronales profundas, incluida la más influyente y utilizada en la 
actualidad: las redes neuronales convolucionales o (para la mayoría de la 
gente del sector, ConvNet o CNN, por sus siglas en inglés). 

Las ConvNet son el auténtico motor de la revolución que atraviesa hoy el 
aprendizaje profundo en visión por ordenador y en otras áreas. Aunque 
muchos aseguran que las ConvNet son la gran novedad de la JA, en realidad 
no son tan nuevas: las propuso por primera vez en los años ochenta el 
informático francés Yann LeCun, que se había inspirado en el neocognitrón 
de Fukushima. 

Voy a detenerme a describir cómo funcionan las ConvNet, porque saberlo 
es crucial para hacernos una idea del estado actual y los límites de la visión 
por ordenador y de muchas otras cosas relacionadas con la IA. 


Reconocimiento de objetos en el cerebro y en 
las ConvNet 


El diseño de las ConvNet, como el del neocognitrón, se basa en varios 
hallazgos fundamentales sobre el sistema visual del cerebro que hicieron 
Hubel y Wiesel en los años cincuenta y sesenta. Cuando los ojos se fijan en 
una escena, lo que reciben es la luz de distintas longitudes de onda que 
reflejan los objetos y las superficies de esa escena. La luz que llega a los 
ojos activa las células de la retina, que es básicamente una red de neuronas 
en la parte posterior del ojo. Las neuronas comunican su activación al 
cerebro a través de los nervios ópticos y así activan, a su vez, las neuronas 
de la corteza visual, que está en la parte posterior de la cabeza (figura 8). La 
corteza visual está organizada aproximadamente como una serie jerárquica 
de capas de neuronas, como los pisos de una tarta nupcial, y las neuronas de 
Cada capa comunican su activación a las neuronas de la capa siguiente. 
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Figura 8. Vía de entrada óptica de los ojos a la corteza visual. 
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Figura 9. Esquema de las características visuales detectadas por las neuronas en las 
diferentes capas de la corteza visual. 


Hubel y Wiesel encontraron pruebas de que las neuronas de las distintas 
Capas de esta jerarquía actúan como «detectoras» que reaccionan ante los 
elementos cada vez más complejos que aparecen en la escena visual, como 
muestra la figura 9: las neuronas de las primeras capas se activan (es decir, 
se disparan a mayor velocidad) en respuesta a los bordes; su activación 
alimenta las capas de neuronas que reaccionan ante formas simples 
compuestas por esos bordes; y así sucesivamente, hasta llegar a formas más 
complejas y, por último, a objetos enteros y rostros concretos. Obsérvese 
que las flechas de la figura 9 indican un flujo de información ascendente (o 
hacia delante), que representa las conexiones desde las capas inferiores 
hacia las superiores (en la figura, de izquierda a derecha). Es importante 
señalar que en la corteza visual también se produce un flujo de información 
descendente O hacia atrás (de las capas superiores a las inferiores); de 
hecho, hay aproximadamente diez veces más conexiones descendentes que 
ascendentes. Sin embargo, los neurocientíficos no comprenden del todo la 
función de estas conexiones hacia atrás, aunque se sabe que los 
conocimientos y las expectativas previos, seguramente almacenados en 
capas cerebrales superiores, influyen mucho en lo que percibimos. 

Al igual que la estructura jerárquica de transmisión hacia delante 
ilustrada en la figura 9, una ConvNet está formada por una secuencia de 
Capas de neuronas simuladas, que llamaré de nuevo «unidades». Las 
unidades de cada capa proporcionan el estímulo a las unidades de la capa 
siguiente. Como ocurre en la red neuronal que describí en el capítulo 2, 
cuando una ConvNet procesa una imagen, cada unidad adquiere un valor de 
activación determinado, un número real que se calcula a partir de las 
entradas de la unidad con sus respectivos pesos. 

Para ser más concretos, imaginemos una ConvNet hipotética, con cuatro 
capas más un «módulo de clasificación», que queremos entrenar para 


reconocer perros y gatos en imágenes. Supongamos, para simplificar, que 
cada imagen de entrada representa exactamente un perro o un gato. La 
figura 10 ilustra la estructura de nuestra ConvNet. Es un poco complicada, 
así que vamos a repasarla con cuidado, paso a paso, para explicar cómo 
funciona. 


Entrada y salida 


La entrada o el estímulo de nuestra ConvNet es una imagen, es decir, una 
matriz de números que corresponden al brillo y el color de los píxeles de la 
imagen.[101] La salida final que emite nuestra ConvNet es la confianza de la 
red (del 0 por ciento al 100 por ciento) en cada categoría: «perro» y «gato». 
Nuestro objetivo es que la red aprenda a emitir una gran confianza en la 
categoría acertada y una seguridad escasa sobre la otra categoría. Así, la red 
aprenderá qué conjunto de características de la imagen de entrada es más 
útil para esta tarea. 
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Figura 10. Ilustración de una red neuronal convolucional (ConvNet) de cuatro capas 
diseñada para reconocer perros y gatos en fotos. 


Mapas de activación 


Obsérvese en la figura 10 que cada capa de la red está representada por un 
conjunto de tres rectángulos superpuestos. Estos rectángulos representan 
mapas de activación, que se inspiran en «mapas» similares encontrados en 
el sistema visual del cerebro. Hubel y Wiesel descubrieron que las neuronas 
de las capas inferiores de la corteza visual están dispuestas físicamente de 


tal modo que forman más o menos una cuadrícula, en la que cada neurona 
reacciona a una pequeña zona correspondiente del campo visual. 
Imaginemos que estamos sobrevolando Los Ángeles de noche en avión y 
hacemos una foto; las luces que se ven en la foto forman un mapa 
aproximado de los elementos de la ciudad iluminada. De la misma forma, 
las activaciones de las neuronas de cada capa cuadriculada de la corteza 
visual forman un mapa aproximado de los elementos principales de la 
escena observada. Ahora imaginemos que tenemos una cámara especial, 
Capaz de hacer fotos separadas de las luces domésticas, las luces de los 
edificios y las luces de los coches. Eso es más o menos lo que hace la 
corteza visual: cada elemento visual importante tiene su propio mapa 
neuronal. La combinación de estos mapas contribuye de forma esencial a 
nuestra percepción de una escena. 

Las unidades de una ConvNet, como las neuronas de la corteza visual, 
actúan como detectoras de elementos visuales importantes; cada unidad 
busca su elemento correspondiente en una parte concreta del campo visual. 
Y como ocurre en la corteza visual (más o menos), cada capa de una 
ConvNet está compuesta por varias cuadrículas de unidades y cada 
cuadrícula forma un mapa de activación para un elemento visual específico. 

¿Qué elementos visuales deben detectar las unidades de una ConvNet? 
Fijémonos primero en el cerebro. Hubel y Wiesel descubrieron que las 
neuronas de las capas inferiores de la corteza visual sirven para detectar 
bordes, teniendo en cuenta que «borde» se refiere al límite entre dos 
regiones distintas de la imagen. Cada neurona recibe un estímulo 
correspondiente a una pequeña región concreta de la escena visual; esta 
región se denomina campo receptivo de la neurona. La neurona se activa (es 
decir, empieza a emitir a más velocidad) solo si su campo receptivo 
contiene un tipo concreto de borde. 

De hecho, estas neuronas son muy específicas en cuanto al tipo de borde 
al que reaccionan. Algunas neuronas solo se activan cuando en su campo 


receptivo hay un borde vertical; otras solo responden a un borde horizontal; 
otras solo se activan cuando hay bordes en otros ángulos concretos. Uno de 
los descubrimientos más importantes de Hubel y Wiesel fue que cada 
pequeña región del campo visual corresponde a los campos receptivos de 
muchas neuronas «detectoras de bordes» diferentes. Es decir, en un nivel 
bajo de procesamiento visual, las neuronas averiguan qué orientación tienen 
los bordes en cada parte de la escena que observamos. Las neuronas 
detectoras de bordes lo comunican a las capas superiores de la corteza 
visual, cuyas neuronas parece que detectan formas, objetos y rostros 
concretos.[102] 

Del mismo modo, la primera capa de nuestra ConvNet hipotética está 
formada por unidades detectoras de bordes. La figura 11 muestra una vista 
más detallada de la primera capa de nuestra ConvNet. Esta capa está 
compuesta por tres mapas de activación, cada uno de los cuales es una 
cuadrícula de unidades. Cada unidad de un mapa corresponde a la posición 
análoga en la imagen de entrada, y cada unidad recibe su estímulo de una 
pequeña región alrededor de esa posición: ese es su campo receptivo. (Los 
campos receptivos de unidades vecinas suelen solaparse). Cada unidad de 
cada mapa Calcula un valor de activación que mide el grado de 
«coincidencia» de la región con la orientación de borde preferida de la 
unidad; por ejemplo, vertical, horizontal o con diversos grados de 
inclinación. 
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Figura 11. Mapas de activación en la primera capa de nuestra ConvNet 
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Figura 12. Ilustración de cómo se utilizan las convoluciones para detectar bordes verticales. 
Por ejemplo, una convolución del campo receptivo superior con los pesos es (200 x 1) + 
(110 x 0) + (70 x -1) + (190 x 1) + (90 x 0) + + (80 x -1) + (220 x 1) + (70 x 0) + (50 x 

-1) = 410. 


La figura 12 muestra en detalle cómo calculan sus activaciones las 
unidades del mapa 1, las que detectan los bordes verticales. Los pequeños 
cuadrados blancos de la imagen que entra representan los campos 
receptivos de dos unidades diferentes. Al ampliarlos, los fragmentos de 
imagen dentro de esos campos receptivos aparecen como matrices de 
valores de píxeles. Aquí, para simplificar, he representado cada fragmento 
como un conjunto de 3 x 3 píxeles (los valores, por convenio, van de O a 
255: cuanto más claro es el píxel, mayor es el valor). Cada unidad recibe 
como entrada los valores de los píxeles de su campo receptivo. Después, la 
unidad multiplica cada entrada por su peso y suma los resultados para 
activar la unidad. 

Los pesos que aparecen en la figura 12 están pensados para generar una 
activación positiva elevada cuando hay un borde vertical entre claro y 
oscuro en el campo receptivo (es decir, un gran contraste entre los lados 
izquierdo y derecho del fragmento que llega a la neurona). El campo 
receptivo superior contiene un borde vertical: la piel clara del perro al lado 
de la hierba, más oscura. Eso se refleja en el valor elevado de activación 


(cuatrocientos diez). El campo receptivo inferior no contiene un borde así, 
solo hierba oscura, y la activación (menos diez) está más cerca de cero. 
Obsérvese que un borde vertical entre oscuro y claro producirá un valor 
negativo «elevado» (es decir, un valor negativo alejado de cero). 

Este cálculo —multiplicar cada valor de un campo receptivo por su peso 
correspondiente y sumar los resultados— se denomina convolución. De ahí 
el nombre de «red neuronal convolucional». Antes he dicho que, en una 
ConvNet, un mapa de activación es una cuadrícula de unidades que 
corresponden a campos receptivos situados en toda la imagen. Cada unidad 
de un mapa de activación determinado utiliza los mismos pesos para 
Calcular una convolución con su campo receptivo; imaginemos la imagen 
de entrada en la que el cuadrado blanco se desliza a lo largo de cada 
fragmento de la imagen.[103] El resultado es el mapa de activación de la 
figura 12: el píxel central del campo receptivo de una unidad es de color 
blanco para las activaciones positivas y negativas altas, y de color más 
oscuro para las activaciones cercanas a cero. Se puede ver que las zonas 
blancas resaltan las posiciones en las que hay bordes verticales. Los mapas 
2 y 3 de la figura 11 se crearon del mismo modo, pero con pesos que 
resaltan los bordes horizontales e inclinados, respectivamente. Todos juntos, 
los mapas de las unidades detectoras de bordes de la primera capa 
proporcionan a la ConvNet una representación de la imagen de entrada 
como una serie de bordes orientados en diferentes regiones, algo parecido a 
lo que produciría un programa de detección de bordes. 

Detengámonos un instante a hablar de la palabra mapa. En el lenguaje 
cotidiano, mapa es la representación espacial de un área geográfica, como 
una ciudad. Un mapa de París, por ejemplo, muestra un elemento concreto 
de la ciudad —el trazado de calles, avenidas y callejones—, pero no incluye 
otros muchos elementos como los edificios, las viviendas, las farolas, los 
cubos de basura, los árboles frutales o los estanques. Otros mapas se fijan 
en otras características; hay mapas que destacan los carriles bici de París, 


los restaurantes vegetarianos, los parques en los que se admiten perros. 
Sean cuales sean nuestros intereses, seguro que hay un mapa que nos 
muestra dónde satisfacerlos. Para explicar París a un amigo que nunca ha 
estado allí, una forma original de hacerlo puede ser enseñarle esa colección 
de mapas de «intereses especiales». 

Una ConvNet, igual que el cerebro, representa la escena visual como una 
colección de mapas que reflejan los «intereses» específicos de un conjunto 
de detectores. En mi ejemplo de la figura 11, estos intereses son las 
diferentes orientaciones de los bordes. Ahora bien, como veremos más 
adelante, en las ConvNet la propia red aprende cuáles deben ser sus 
intereses (es decir, los detectores); dependen de la tarea específica para la 
que se la entrene. 

La elaboración de mapas no es exclusiva de la primera capa de nuestra 
ConvNet. Como puede verse en la figura 10, hay una estructura similar en 
todas las capas: cada una tiene un conjunto de detectores, y cada uno de 
ellos crea su propio mapa de activación. Una de las claves del éxito de la 
ConvNet es que —también como en el cerebro— estos mapas son 
jerárquicos: las entradas de las unidades de la capa 2 son los mapas de 
activación de la capa 1, las entradas de las unidades de la capa 3 son los 
mapas de activación de la capa 2, y así en todas las capas. En nuestra red 
hipotética, en la que las unidades de la primera capa reaccionan a los 
bordes, las unidades de la segunda capa serían sensibles a combinaciones 
específicas de bordes, como las esquinas y las formas en T. Los detectores 
de la tercera capa serían sensibles a combinaciones de combinaciones de 
bordes. A medida que se sube en la jerarquía, los detectores son sensibles a 
características cada vez más complejas, tal como Hubel, Wiesel y otros 
observaron en el cerebro. 

Nuestra ConvNet hipotética tiene cuatro capas, cada una con tres mapas, 
pero en la realidad estas redes pueden tener muchas más —a veces cientos 
—, Cada una con distintas cantidades de mapas de activación. Determinar 


estos y muchos otros aspectos de la estructura de una ConvNet es 
fundamental para conseguir que estas complejas redes puedan llevar a cabo 
una tarea determinada. En el capítulo 3, describí la teoría de I. J. Good 
sobre una futura «explosión de inteligencia» en la que las propias máquinas 
crearán máquinas cada vez más inteligentes. Todavía no hemos llegado a 
eso. Por ahora, para conseguir que las ConvNet funcionen bien hace falta 
mucha creatividad humana. 


La clasificación en las ConvNet 


Las capas 1 a 4 de nuestra red se denominan capas convolucionales porque 
cada una hace convoluciones en la capa precedente (y la primera capa hace 
convoluciones en los datos de entrada). Cuando entra una imagen, Cada 
capa sucesiva hace sus cálculos, hasta que al final, en la cuarta capa, la red 
ha elaborado un conjunto de mapas de activación para elementos 
relativamente complejos. Pueden ser ojos, patas, colas o cualquier otra 
Característica que la red haya aprendido que es útil para clasificar los 
objetos con los que se ha entrenado (en este caso, perros y gatos). Entonces 
ha llegado el momento de que el módulo de clasificación utilice esos 
elementos para predecir qué objeto representa la imagen. 

En realidad, el módulo de clasificación es una red neuronal tradicional, 
similar a la que describí en el capítulo 2. Las entradas del módulo de 
clasificación son los mapas de activación de la capa convolucional superior. 
La salida del módulo es un conjunto de valores porcentuales, uno por cada 
categoría posible, que califican la confianza de la red en que la entrada 
represente una imagen de esa categoría (en este caso, perro o gato).[104] 

Como resumen de esta breve explicación de las ConvNet: una ConvNet, 
inspirada en los hallazgos de Hubel y Wiesel sobre la corteza visual del 
cerebro, toma una imagen de entrada y la transforma —mediante 
convoluciones— en un conjunto de mapas de activación con elementos 
cada vez más complejos. Los elementos de la capa convolucional más alta 


se introducen en una red neuronal tradicional (que he denominado módulo 
de clasificación), que genera porcentajes de confianza sobre las categorías 
de objetos conocidas por la red. La categoría de objetos sobre la que hay 
más seguridad es la que la red devuelve como clasificación de la imagen. 
[105] 

¿Quieren hacer experimentos con una ConvNet bien entrenada? No hay 
más que hacer una foto de un objeto y subirla al motor de búsqueda por 
imagen de Google.[106] El buscador ejecutará una ConvNet en la imagen y, 
basándose en los grados de seguridad resultantes (sobre miles de categorías 
posibles de objetos), nos dirá su «hipótesis más probable» respecto a la 
imagen. 


El entrenamiento de una ConvNet 


Nuestra ConvNet hipotética contiene detectores de bordes en su primera 
Capa, pero en las ConvNet del mundo real los detectores de bordes no están 
integrados. Las ConvNet reales aprenden de los ejemplos de entrenamiento 
qué elementos hay que detectar en cada capa y cómo ponderar los pesos en 
el módulo de clasificación para generar una confianza elevada en la 
respuesta correcta. Y, como en las redes neuronales tradicionales, todos los 
pesos pueden aprenderse a partir de los datos mediante el mismo algoritmo 
de retropropagación que describí en el capítulo 2. 

Para ser más concretos, he aquí cómo podríamos entrenar a nuestra 
ConvNet para que identifique una imagen específica, como un perro o un 
gato. En primer lugar, tendríamos que reunir muchas imágenes de perros y 
gatos para formar los «datos de entrenamiento». Además, deberíamos crear 
un archivo que asigne una etiqueta a cada imagen, es decir, «perro» O 
«gato». (O mejor aún, podríamos seguir el ejemplo de los investigadores 
sobre la visión por ordenador y contratar a un alumno de posgrado para que 
haga todo esto por nosotros. En el caso de un estudiante de posgrado, puede 
reclutar a un alumno de grado. A nadie le gusta encargarse del etiquetado). 


El programa de entrenamiento, al principio, asigna valores aleatorios a 
todos los pesos de la red. Después, el programa empieza a entrenar: 
suministra a la red las imágenes, una a una; la red hace sus cálculos en cada 
capa y, al final, emite porcentajes de seguridad para «perro» y «gato». Para 
cada imagen, el programa de entrenamiento compara esos valores de salida 
con los valores «correctos»; por ejemplo, si la imagen es un perro, la 
seguridad de que es un «perro» debe ser del 100 por ciento y la seguridad 
de que es un «gato» debe ser del 0 por ciento. A continuación, el programa 
de entrenamiento utiliza el algoritmo de retropropagación para modificar 
ligeramente los pesos de toda la red, de modo que la próxima vez que se 
vea esta imagen los grados de seguridad se acerquen más a los valores 
correctos. 

El desarrollo de este procedimiento —introducir la imagen como entrada, 
Calcular el error en la salida y cambiar las ponderaciones— para cada 
imagen de los datos de entrenamiento es lo que se denomina un ciclo o una 
«época» de entrenamiento. Se tardan muchas épocas en entrenar una 
ConvNet, muchos ciclos durante los que la red procesa cada imagen una y 
otra vez. Al principio, a la red se le dará muy mal distinguir los perros de 
los gatos, pero poco a poco, a medida que modifique sus pesos durante 
muchas épocas, lo hará cada vez mejor. Al final llega un momento en el que 
la red «converge», es decir, los pesos ya no cambian tanto entre una época y 
otra, y sabe (en principio) reconocer muy bien los perros y los gatos en las 
imágenes de los datos de entrenamiento. Pero no sabremos si la red lleva a 
cabo verdaderamente bien esta tarea en general hasta que veamos si puede 
utilizar lo que ha aprendido para identificar imágenes que no son de sus 
datos de entrenamiento. Lo verdaderamente interesante es que, aunque no 
haya un programador que obligue a las ConvNet a aprender a detectar 
ningún elemento concreto, cuando se entrenan con grandes conjuntos de 
fotografías del mundo real, parecen aprender una jerarquía de detectores 


similar a la que Hubel y Wiesel descubrieron en el sistema visual del 
cerebro. 

En el próximo capítulo narraré el extraordinario ascenso de las ConvNet 
desde un relativo anonimato hasta el dominio casi absoluto de la visión 
artificial, una transformación posible gracias a una revolución tecnológica 
simultánea: la de los «macrodatos». 


[98] S. A. Papert, «The Summer Vision Project», MIT Artificial Intelligence Group Vision Memo 
100 (7 de julio de 1966), dspace.mit.edu/handle/1721.1/6125. 

[99] D. Crevier, AI: The Tumultuous History of the Search for Artificial Intelligence, Nueva York: 
Basic Books, 1993, p. 88 [trad. cast.: Inteligencia artificial, Madrid: Acento, 1996]. 

[100] K. Fukushima, «Cognitron: A Self-Organizing Multilayered Neural Network Model», 


Biological Cybernetics 20, n.° 3-4 (1975), pp. 121-36; K. Fukushima, «Neocognitron: A 
Hierarchical Neural Network Capable of Visual Pattern Recognition», Neural Networks 1, n.° 2 
(1988), pp. 119-130. 

[101] Antes de introducirla en la red, la imagen debe ajustarse a un tamaño fijo, el mismo que el de 
la primera capa de la red. 

[102] La mayoría de las afirmaciones sobre cómo hace el cerebro alguna tarea tienen que ir 
acompañadas de muchas reservas; lo mismo pasa con la historia que acabo de esbozar. Aunque lo 
que he dicho es más o menos así, el cerebro es demasiado complejo y los hallazgos que he esbozado 
no son más que una pequeña parte de la historia de la visión temprana, que en gran parte los 
científicos todavía no comprenden del todo. 

[103] La matriz de pesos asociada a cada mapa de activación se denomina filtro convolucional o 
núcleo convolucional. 

[104] Aquí estoy usando el término módulo de clasificación como versión abreviada de lo que 
normalmente se llama las capas totalmente conectadas de una red convolucional profunda. 

[105] Mi descripción de una ConvNet omite muchos detalles. Por ejemplo, para calcular su 
activación, una unidad en una capa convolucional lleva a cabo una convolución y luego aplica una 
función de activación no lineal al resultado. Las ConvNet también suelen incluir otros tipos de capas, 
como las «capas de agrupamiento». Para más detalles, véase I. Goodfellow, Y. Bengio y A. Courville, 
Deep Learning, Cambridge, Mass.: MIT Press, 2016. 

[106] En el momento de escribir este libro, se puede acceder al motor de «búsqueda por imágenes» 
de Google en images.google.com haciendo clic en el pequeño icono de la cámara en el cuadro de 
búsqueda. 
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ConvNet e ImageNet 


Vam LeCun, el inventor de las ConvNet, ha investigado las redes 
neuronales toda su vida, desde los años ochenta y a través de los inviernos y 
las primaveras que ha atravesado este campo. Cuando era estudiante de 
posgrado y posdoctoral, le fascinaban los perceptrones de Rosenblatt y el 
neocognitrón de Fukushima, pero se dio cuenta de que este último no 
contaba con un algoritmo de aprendizaje bien supervisado. Junto con otros 
investigadores (sobre todo su tutor posdoctoral, Geoffrey Hinton), LeCun 
ayudó a desarrollar ese método de aprendizaje, que es esencialmente la 
misma forma de retropropagación que se utiliza hoy en día en las ConvNet. 
[107] 

En los años ochenta y noventa, mientras trabajaba en los Laboratorios 
Bell, LeCun se fijó en el problema del reconocimiento de cifras y letras 
manuscritas. Combinó ideas del neocognitrón con el algoritmo de 
retropropagación y creó así algo de nombre parecido: «LeNet», una de las 
primeras ConvNet. La capacidad de reconocimiento de cifras manuscritas 
de LeNet hizo que tuviera un gran éxito comercial: en los años noventa y 
primeros dos mil, el servicio de correos de Estados Unidos la utilizó para 
identificar de forma automática códigos postales, y el sector bancario para 
leer los dígitos de los cheques. 


El intento de ampliar el uso de LeNet y su sucesora, ConvNet, a tareas de 
visión más complejas no salió bien. A mediados de los noventa, las redes 
neuronales empezaron a caer en desgracia en el sector de la IA y empezó a 
darse preferencia a otros métodos. Pero LeCun, que seguía confiando en las 
ConvNet, siguió investigando y mejorándolas. Como dijo de él Geoffrey 
Hinton: «Fue el portador de la antorcha en la época más oscura».[108] 

LeCun, Hinton y otros fieles a las redes neuronales creían que unas 
versiones mejoradas y más amplias de las ConvNet y otras redes profundas 
dominarían la visión por ordenador si se las podía entrenar con suficientes 
datos. No dieron su brazo a torcer y siguieron trabajando por su cuenta 
durante la primera década de este siglo. En 2012, de pronto, la antorcha que 
portaban los investigadores sobre las ConvNet ocasionó un incendio en los 
trabajos sobre la visión al ganar una competición de visión por ordenador 
con un conjunto de datos de imágenes llamado ImageNet. 


La construcción de ImageNet 


Los investigadores de IA son muy competitivos, así que no es de extrañar 
que les guste organizar competiciones para impulsar su trabajo. En el 
campo del reconocimiento visual de objetos, los investigadores llevan 
mucho tiempo organizando concursos anuales para averiguar qué programa 
funciona mejor. Cada uno de estos concursos incluye un «conjunto de datos 
de referencia»: una colección de fotos y unas etiquetas creadas por personas 
que nombran los objetos de las fotos. Entre 2005 y 2010, la más importante 
de estas competiciones anuales fue el concurso de clases de objetos visuales 
PASCAL, en el que en 2010 se presentaron alrededor de quince mil 
fotografías (descargadas de la web de intercambio de fotos Flickr), con 
etiquetas creadas por humanos para designar veinte categorías de objetos, 
entre las que estaban «persona», «perro», «caballo», «oveja», «coche», 
«bicicleta», «sofá» y «planta en una maceta». 


Los programas que competían en la parte de «clasificación» del 
concurso[109] eran programas de visión por ordenador capaces de recibir 
como estímulo una fotografía (sin ver la etiqueta que le había asignado un 
ser humano) y decir después si en la imagen había un objeto de cada una de 
las veinte categorías. 

La competición se desarrollaba de esta forma: los organizadores 
distribuían las fotografías entre un conjunto de datos de entrenamiento que 
los concursantes podían utilizar para entrenar sus programas y un conjunto 
de datos de prueba que no se dejaba ver a los concursantes y que servía para 
medir el comportamiento de los programas con imágenes ajenas a los datos 
de entrenamiento. Antes del concurso se proporcionaban los datos de 
entrenamiento en línea y, cuando se celebraba la competición, los 
investigadores presentaban los programas que habían entrenado para que 
los examinaran utilizando los datos secretos de prueba. El programa 
ganador era el que más acertaba en el reconocimiento de los objetos de las 
imágenes de prueba. 

Las competiciones anuales PASCAL fueron muy importantes y 
contribuyeron enormemente a hacer avanzar la investigación sobre el 
reconocimiento de objetos. Durante los años que se celebró el concurso, los 
programas fueron mejorando poco a poco (curiosamente, las plantas en 
maceta seguían siendo los objetos más difíciles de identificar). No obstante, 
algunos investigadores se sentían frustrados por las limitaciones de 
PASCAL como método para impulsar la visión por ordenador. Los 
concursantes prestaban demasiada atención a las veinte categorías de 
objetos específicas de PASCAL y no creaban sistemas que pudieran abarcar 
la enorme cantidad de categorías de objetos que reconocen los humanos. 
Además, los datos que se suministraban no contenían fotos suficientes para 
que los sistemas participantes pudieran aprender todas las variaciones 
posibles del aspecto de los objetos y fueran capaces de generalizar. 


Para avanzar, el campo necesitaba una nueva colección de imágenes de 
referencia, con muchas más categorías y muchas más fotos. Fei-Fei Li, una 
joven profesora de Visión por Ordenador de Princeton, estaba 
especialmente dedicada a conseguirlo. Se enteró por casualidad de que 
había un proyecto dirigido por otro profesor de Princeton, el psicólogo 
George Miller, para crear una base de datos de palabras del inglés, 
ordenadas en una jerarquía que iba de lo más particular a lo más general, 
con los sinónimos agrupados. Por ejemplo, tomemos la palabra capuchino. 
La base de datos, llamada WordNet, contiene la siguiente información sobre 
esta palabra (la flecha significa «es un tipo de»): 


capuchino = café = bebida = alimento = sustancia = entidad física = entidad 


La base de datos también contiene la información de que, por ejemplo, 
«bebida», «trago» y «potable» son sinónimos, que «bebida» forma parte de 
otra cadena que incluye «líquido», y así sucesivamente. 

WordNet había sido (y sigue siendo) muy utilizada en las investigaciones 
de psicólogos y lingiiistas, asi como en sistemas de procesamiento de 
lenguaje natural de IA, pero Fei-Fei Li tuvo una idea nueva: crear una base 
de datos de imágenes estructurada con arreglo a los sustantivos de WordNet 
en la que cada sustantivo estuviera vinculado a un gran número de 
imágenes que contuvieran ejemplos de ese sustantivo. Así nació la idea de 
ImageNet. 

Li y sus colaboradores no tardaron en recopilar una avalancha de 
imagenes a base de buscar sustantivos de WordNet en buscadores de 
imagenes como Flickr y Google Images. Ahora bien, cualquiera que haya 
utilizado un buscador de imagenes sabe que los resultados no suelen ser 
nada perfectos. Por ejemplo, si escribimos «macintosh apple» (manzana 
macintosh) en el cuadro de búsqueda de imágenes de Google, obtendremos 
no solo fotos de manzanas y ordenadores Mac, sino también de velas con 
forma de manzana, teléfonos inteligentes, botellas de licor de manzana y 


muchas otras cosas irrelevantes. De modo que Li y sus colegas tuvieron que 
pedir a unas personas que vieran qué imágenes no eran ilustraciones de un 
sustantivo determinado y las eliminaran. Al principio, los encargados eran 
sobre todo estudiantes universitarios. Era un trabajo atroz, lento y agotador. 
Li se dio cuenta de que, a ese ritmo, tardarían noventa años en completar la 
tarea.[110] 

Li y su equipo estudiaron posibles formas de automatizar el proceso, 
pero, por supuesto, el problema de decidir si una foto es la representación 
de un nombre concreto es precisamente en lo que consiste el 
reconocimiento de objetos. Y los ordenadores estaban muy lejos de poder 
desempeñar la tarea, lo cual era el motivo por el que se había construido 
ImageNet. 

El grupo se encontraba estancado, hasta que Li, por casualidad, se topó 
con un sitio web de tres años de antigiiedad que podía proporcionar el 
talento humano que necesitaba ImageNet. El sitio web tenía el extraño 
nombre de Amazon Mechanical Turk. 


Mechanical Turk 


Según Amazon, su servicio Mechanical Turk es «un mercado para trabajos 
que requieren inteligencia humana». El servicio pone en contacto a los 
«solicitantes» —personas que necesitan llevar a cabo una tarea difícil para 
los ordenadores— con los «trabajadores» —personas dispuestas a prestar su 
inteligencia humana a la tarea que necesita un solicitante— a cambio de 
unos pequeños honorarios (por ejemplo, etiquetar los objetos de una foto 
por diez céntimos cada foto). Se han inscrito cientos de miles de 
trabajadores de todo el mundo. Mechanical Turk es la plasmación de la 
frase de Marvin Minsky «Lo fácil es difícil»: se contrata a trabajadores 
humanos para que hagan las tareas «fáciles» que, hoy en día, son demasiado 
difíciles para los ordenadores. 


El nombre de Turco Mecánico procede de un famoso engaño de la IA del 
siglo xvi: el Turco Mecánico original era una «maquina inteligente» que 
jugaba al ajedrez; en ella se escondía una persona que manejaba una 
marioneta (el «turco», vestido como un sultán otomano) con la que hacía las 
jugadas. Parece que engañó a muchos personajes de la época, incluido 
Napoleón Bonaparte. El servicio de Amazon, aunque no pretende engañar a 
nadie, es, como el Turco Mecánico original, una «inteligencia artificial 
artificial».[111] 

Fei-Fei Li se dio cuenta de que si su grupo pagaba a decenas de miles de 
trabajadores de Mechanical Turk para que eliminaran las imágenes 
irrelevantes para cada uno de los términos de WordNet, se podría completar 
todo el conjunto de datos en unos cuantos años con un coste relativamente 
bajo. En apenas dos años, se etiquetaron más de tres millones de imágenes 
con los sustantivos WordNet correspondientes para formar la base de datos 
ImageNet. Desde luego, Mechanical Turk fue «una bendición» para el 
proyecto.[112] Los investigadores en IA siguen recurriendo mucho al 
servicio para crear conjuntos de datos; en la actualidad, las propuestas de 
becas académicas en IA suelen incluir una partida para «trabajadores de 
Mechanical Turk». 


Las competiciones de ImageNet 


En 2010, el proyecto ImageNet puso en marcha el primer Desafío ImageNet 
de reconocimiento visual a gran escala, con el fin de estimular los avances 
para dar con algoritmos de reconocimiento de objetos más generales. 
Compitieron treinta y cinco programas que representaban a investigadores 
de visión por ordenador del mundo académico y de la industria de todo el 
planeta. A los concursantes se les dieron unas imágenes de entrenamiento 
etiquetadas (1,2 millones) y una lista de posibles categorías. La tarea de los 
programas entrenados consistía en asignar la categoría correcta a Cada 


imagen de entrada. ImageNet tenía mil categorías posibles, frente a las 
veinte de PASCAL. 

Las mil categorías posibles eran un subconjunto de términos de WordNet 
elegidos por los organizadores. Las categorías son un grupo de sustantivos 
aparentemente aleatorio que van desde lo más familiar y corriente («limón», 
«castillo», «piano de cola»), hasta cosas menos comunes («viaducto», 
«cangrejo ermitaño», «metrónomo») y muy poco conocidas («galgo 
escocés», «vuelvepiedras», «mono patas»). Los animales y plantas más 
desconocidos —al menos, que yo no podría distinguir— constituyen, como 
mínimo, una décima parte de las mil categorías utilizadas. 

Algunas fotografías no contienen más que un objeto; otras contienen 
muchos, entre ellos el «correcto». Esta ambigiedad hace que un programa 
pueda aventurar cinco categorías para cada imagen, y si en esa lista está la 
correcta, se considera que el programa ha acertado con la imagen. Es lo que 
se denomina la métrica de precisión de las «cinco mejores». 

El programa que más puntos obtuvo en 2010 utilizó una máquina de 
vectores de soporte, el algoritmo de reconocimiento de objetos 
predominante en aquel entonces, que empleaba cálculos complejos para 
aprender a asignar una categoría a cada imagen de entrada. Utilizando la 
métrica de precisión de las cinco mejores, el programa acertó en el 72 por 
ciento de las 150.000 imágenes de prueba. No está nada mal, aunque eso 
quiere decir que el programa se equivocó —a pesar de poder hacer cinco 
conjeturas— en más de cuarenta mil de las imágenes de prueba, lo que deja 
mucho margen de mejora. Es llamativo que entre los programas con mejor 
puntuación no hubo ninguna red neuronal. 

En la competición del año siguiente, el programa que más puntos 
consiguió —también con máquinas de vectores de soporte— mejoró de 
forma respetable pero discreta, puesto que acertó el 74 por ciento de las 
imágenes de prueba. La mayoría de los expertos esperaban que esta 
tendencia se mantuviera: que la investigación en visión por ordenador fuera 


resolviendo poco a poco los problemas con mejoras graduales en cada 
competición anual. 

Sin embargo, estas expectativas cambiaron drásticamente en el concurso 
ImageNet de 2012: el programa que ganó obtuvo nada menos que un 85 por 
ciento de aciertos. Fue una mejora de la precisión de lo más asombrosa. 
Además, el programa vencedor no utilizó máquinas de vectores de soporte 
ni ninguno de los demás métodos de visión por ordenador habituales en 
aquel entonces. Era una red neuronal convolucional. Esta ConvNet concreta 
se denomina AlexNet, por el nombre de su principal creador, Alex 
Krizhevsky, entonces estudiante de posgrado en la Universidad de Toronto, 
bajo la supervisión del eminente investigador de redes neuronales Geoffrey 
Hinton. Krizhevsky, en colaboración con Hinton y otro alumno, Ilya 
Sutskever, creó una versión ampliada de LeNet, que había construido Yann 
LeCun en los años noventa; ahora que había aumentado la potencia de los 
ordenadores, ya era posible entrenar una red tan grande. AlexNet tenía ocho 
capas y alrededor de sesenta millones de pesos, cuyos valores se aprendían 
mediante retropropagación a partir de más de un millón de imágenes de 
entrenamiento.[113] El grupo de Toronto concibió una serie de métodos 
astutos para mejorar el entrenamiento de la red y, gracias a ello, un grupo de 
potentes ordenadores tardó aproximadamente una semana en entrenar 
AlexNet. 

El éxito de AlexNet sacudió el mundillo de la visión por ordenador y de 
la IA en general, porque hizo ver de pronto a la gente el poder que podían 
llegar a tener las ConvNet, que la mayoría de los investigadores del sector 
no habían tomado en serio hasta entonces como un competidor que tener en 
cuenta. En un artículo de 2015, el periodista Tom Simonite preguntó a Yann 
LeCun sobre el inesperado triunfo de las ConvNet: 

LeCun recuerda haber visto a la comunidad, que en general había ignorado las redes 

neuronales, abarrotar la sala en la que los ganadores presentaron un informe sobre sus 


resultados. «Muchos miembros prestigiosos del sector se dieron de bruces con la realidad allí 
mismo —cuenta—. Dijeron: «Vale, ahora nos lo creemos. Ya está, habéis ganado».[114] 


Casi al mismo tiempo, el grupo de Geoffrey Hinton estaba demostrando 
también que las redes neuronales profundas, si eran entrenadas con enormes 
cantidades de datos etiquetados, superaban con mucho los mejores 
resultados conseguidos hasta entonces en el ámbito del reconocimiento del 
habla. Los resultados del grupo de Toronto en ImageNet y reconocimiento 
del habla tuvieron gran repercusión. Un año después, Google adquirió una 
pequeña empresa creada por Hinton, de forma que este y sus alumnos 
Krizhevsky y Sutskever se convirtieron en empleados de Google. Con la 
compra, Google se situó en la vanguardia del aprendizaje profundo. 

Poco después, Facebook convenció a Yann LeCun de que dejara su 
cátedra en la Universidad de Nueva York para dirigir el laboratorio de IA 
que acababa de crear. Enseguida, todas las grandes tecnológicas (y muchas 
otras más pequeñas) se apresuraron a contratar a expertos en aprendizaje 
profundo y estudiantes de posgrado lo antes posible. El aprendizaje 
profundo se convirtió, aparentemente de la noche a la mañana, en el aspecto 
más de moda de la IA, y los conocimientos sobre el tema empezaron a 
garantizar a los informáticos un sueldo sustancioso en Silicon Valley o, 
mejor aún, financiación de capital riesgo para un número cada vez mayor de 
nuevas empresas dedicadas al aprendizaje profundo. 

El concurso anual de ImageNet empezó a recibir más atención de los 
medios de comunicación y rápidamente dejó de ser una competición 
académica amistosa para convertirse en un combate muy publicitado entre 
empresas tecnológicas que comercializaban la visión por ordenador. Ganar 
en ImageNet garantizaba el ansiado respeto de los especialistas en visión, 
además de una publicidad gratuita que podría traducirse en ventas de 
productos y subidas del precio de las acciones. La presión para crear 
programas que superasen a los de la competencia quedó clara en un 
incidente de 2015 en el que se descubrió que la gigantesca empresa china de 
internet Baidu estaba haciendo trampas. El engaño fue un sutil ejemplo de 
lo que en el ámbito del aprendizaje automático se llama dragado de datos. 


He aquí lo que ocurrió: antes del concurso, a cada equipo que competía 
en ImageNet se le suministraron imágenes de entrenamiento etiquetadas 
con las categorías de objetos correctas. También se les dio un gran conjunto 
de datos de prueba —una colección de imágenes no incluidas en los datos 
de entrenamiento— sin ninguna etiqueta. Una vez entrenado el programa, el 
equipo podía ver si su método daba buenos resultados con las imágenes de 
prueba. De esa forma es posible comprobar si un programa ha aprendido a 
generalizar (en lugar de, por ejemplo, memorizar las imágenes de 
entrenamiento y sus etiquetas). Lo único que cuenta es el comportamiento 
con las imágenes de prueba. La forma que tenía un equipo de averiguar si 
su programa funcionaba bien en el conjunto de pruebas era ejecutar el 
programa para cada imagen del conjunto de pruebas, recopilar las cinco 
mejores conjeturas sobre cada imagen y enviar la lista a un «servidor de la 
prueba», un ordenador manejado por los organizadores del concurso. El 
servidor de la prueba comparaba la lista enviada con las respuestas 
correctas (secretas) y emitía el porcentaje de aciertos. 

Cada equipo podía registrarse para hacerse una cuenta en el servidor de 
la prueba y así obtener en retorno la puntuación que habían conseguido las 
distintas versiones de sus programas; de esa forma podían publicar (y dar a 
conocer) sus resultados antes de que se anunciaran los resultados oficiales. 

En el aprendizaje automático existe una regla sagrada: «No entrenar con 
los datos de prueba». Parece de cajón: si incluimos datos de prueba en 
alguna parte del entrenamiento de nuestro programa, no podremos ver 
exactamente qué capacidad de generalización tiene. Es como dar a los 
alumnos las preguntas del examen final antes de que lo hagan. Pero resulta 
que hay formas sutiles de romper esta regla, de forma voluntaria o 
involuntaria, para que el comportamiento de nuestro programa parezca 
mejor de lo que es. 

Un método sería enviar las respuestas del programa sobre los datos de 
prueba al servidor y, en función del resultado, hacer alguna modificación 


para luego volver a enviarlo. Se puede repetir varias veces, hasta que tenga 
los ajustes necesarios para identificar mejor los datos de prueba. Para eso no 
hace falta ver materialmente las etiguetas de los datos de prueba, pero sí 
conocer hasta qué punto han sido acertadas las conjeturas y ajustar el 
programa en consecuencia. Si se hace suficientes veces, puede mejorar 
mucho el comportamiento del programa con los datos de prueba. Pero al 
usar los datos de prueba para modificar el programa, ya no se pueden 
utilizar para saber si el programa es capaz de generalizar. Sería como 
permitir a unos estudiantes que se presenten muchas veces a un examen 
final y ponerles cada vez una sola nota que les sirve para intentar mejorar la 
vez siguiente, hasta que, al final, los alumnos presentan las respuestas que 
hayan tenido la mejor puntuación. Entonces ya no sirve para saber si los 
alumnos han aprendido bien la asignatura, sino solo para saber cómo han 
adaptado sus respuestas a unas preguntas concretas. 

Para evitar este tipo de dragado de datos pero dejar que los competidores 
de ImageNet pudieran seguir comprobando el comportamiento de sus 
programas, los organizadores establecieron la norma de que cada equipo 
podía enviar respuestas al servidor de prueba un máximo de dos veces por 
semana. Así se limitaba la cantidad de valoraciones de retorno que los 
equipos podrían obtener de esos ensayos. 

La gran batalla de ImageNet de 2015 se libró por una fracción de punto 
porcentual, una diferencia aparentemente nimia pero que podía ser muy 
lucrativa. A principios de año, un equipo de Baidu anunció un método que 
conseguía la mayor precisión (los cinco mejores) vista en unos datos de 
prueba de ImageNet: 94,67 por ciento, para ser exactos. Ahora bien, ese 
mismo día, un equipo de Microsoft anunció que su método obtenía más 
precisión: el 95,06 por ciento. A los pocos días, un equipo de Google 
anunció un método ligeramente diferente que acertaba todavía más: el 95,18 
por ciento. Este récord se mantuvo durante unos meses, hasta que Baidu 
hizo un nuevo anuncio: había mejorado su método y ahora podía presumir 


de un porcentaje todavía mejor, el 95,42 por ciento. El equipo de relaciones 
públicas de la empresa dio gran publicidad al resultado. 

Sin embargo, unas semanas después, los organizadores de ImageNet 
emitieron un escueto comunicado: «Durante el periodo comprendido entre 
el 28 de noviembre de 2014 y el 13 de mayo de 2015, un equipo de Baidu 
utilizó al menos treinta cuentas distintas para enviar datos al servidor de 
pruebas un mínimo de doscientas veces, muy por encima del límite 
establecido de dos envíos por semana».[115] En resumen, habían descubierto 
que el equipo de Baidu hacía dragado de datos. 

Las doscientas puntuaciones conseguidas de vuelta permitieron al equipo 
de Baidu determinar qué ajustes necesitaba su programa para acertar más 
con los datos de prueba y así ganar la importantísima fracción de punto 
porcentual que daba la victoria. Como castigo, Baidu quedó descalificada 
para presentar su programa en el concurso de 2015. 

Con la esperanza de acallar la mala publicidad, la empresa se disculpó de 
inmediato y culpó a un empleado que había actuado por su cuenta: 
«Descubrimos que un jefe de equipo había ordenado a los ingenieros 
ayudantes que enviaran más de dos propuestas a la semana, lo que infringía 
las normas vigentes de ImageNet».[116] El empleado, pese a negar que 
hubiera infringido ninguna norma, fue despedido inmediatamente de la 
empresa. 

Aunque esta historia no es más que una interesante nota a pie de página 
en la historia general del aprendizaje profundo en visión por ordenador, la 
cuento para ilustrar hasta qué punto la competición de ImageNet llegó a ser 
el símbolo fundamental de progreso en visión por ordenador y en IA en 
general. 

Al margen de que se hicieran trampas, los avances en ImageNet 
continuaron. La última competición se celebró en 2017, con un nivel de 
acierto del 98 por ciento en las cinco mejores conjeturas. Como comentó un 
periodista: «Hoy en día, muchos consideran que el tema de ImageNet ha 


quedado resuelto»,[117] por lo menos en cuanto a la tarea de clasificación. 
El sector está avanzando hacia nuevos conjuntos de datos de referencia y 
nuevos problemas, sobre todo los que integran la visión y el lenguaje. 

¿Qué fue lo que permitió a las ConvNet, que parecían estar en un callejón 
sin salida en los años noventa, pasar a dominar de repente la competición de 
ImageNet y después la mayor parte de la visión por ordenador en los 
últimos cinco años? En realidad, el éxito reciente del aprendizaje profundo 
se debe, más que a los nuevos avances en JA, a la posibilidad de disponer 
de enormes cantidades de datos (¡gracias, internet!) y dispositivos 
informáticos muy rápidos. Estos factores, junto con la mejora de los 
métodos de entrenamiento, permiten entrenar redes de más de cien capas 
con millones de imágenes en solo unos días. 

Al propio Yann LeCun le sorprendió con qué rapidez cambiaron las cosas 
para su ConvNet: «No es frecuente que una tecnología que lleva veinte o 
veinticinco años en el mercado, prácticamente sin cambios, acabe siendo la 
mejor. Es asombroso a qué velocidad la ha adoptado la gente. Nunca había 
visto nada igual».[118] 


La fiebre del oro de las ConvNet 


Después de que ImageNet y otros grandes conjuntos de datos 
proporcionaran a las ConvNet la enorme cantidad de ejemplos de 
entrenamiento que necesitaban para funcionar bien, las empresas se 
encontraron de pronto con que podían utilizar la visión por ordenador de 
formas nunca vistas. En palabras de Blaise Agiiera y Arcas, de Google: «Ha 
sido una especie de fiebre del oro: hemos abordado un problema tras otro 
con las mismas técnicas».[119 Utilizando ConvNet entrenadas mediante 
aprendizaje profundo, los motores de búsqueda de imágenes de Google, 
Microsoft y otros pudieron mejorar enormemente su función de «encontrar 
imágenes similares». Google ofrecía un sistema de almacenamiento de 
fotos que permitía etiquetarlas con la descripción de los objetos que 


contenían, y el servicio Street View de Google podía identificar y difuminar 
en sus imágenes direcciones de calles y matrículas. La proliferación de 
aplicaciones móviles hizo posible que los teléfonos inteligentes 
reconocieran objetos y rostros sobre la marcha. 

Facebook empezó a etiquetar las fotos que subíamos con los nombres de 
nuestros amigos y registró una patente para clasificar las emociones que 
delataban las expresiones faciales de las fotos; Twitter desarrolló un filtro 
Capaz de detectar imágenes pornográficas en los tuits; y varias webs de 
intercambio de fotos y vídeos empezaron a aplicar herramientas para 
detectar imágenes asociadas a grupos terroristas. Las ConvNet pueden 
aplicarse en vídeos y utilizarse para que los coches autónomos rastreen la 
presencia de peatones, para leer los labios y para clasificar el lenguaje 
corporal. Las ConvNet pueden incluso diagnosticar cáncer de mama y de 
piel a partir de imágenes médicas, determinar el estadio de la retinopatía 
diabética y ayudar a los médicos a planificar el tratamiento del cáncer de 
próstata. 

Estos son solo algunos ejemplos de las muchas aplicaciones comerciales 
que ya funcionan (o pronto funcionarán) gracias a las ConvNet. De hecho, 
es muy probable que cualquier aplicación moderna de visión por ordenador 
de las que utilizamos emplee ConvNet. Y es más que probable que la hayan 
«entrenado previamente» con imágenes de ImageNet para aprender 
Características visuales genéricas antes de «refinarla» para tareas más 
específicas. 

Dado que el intenso entrenamiento que necesitan las ConvNet solo es 
factible con material informático especializado —normalmente, unidades 
de procesamiento gráfico (GPU) muy potentes—, no es extraño que el 
precio de las acciones de NVIDIA Corporation, el fabricante más destacado 
de GPU, se multiplicara más de un 1.000 por ciento entre 2012 y 2017. 


¿Han superado las ConvNet a los humanos en el 


reconocimiento de objetos? 


A medida que conocía los extraordinarios éxitos de las ConvNet, me 
preguntaba cuánto se aproximaban a la capacidad humana de reconocer 
objetos. Un artículo publicado por Baidu en 2015 (después del escándalo de 
las trampas) tenía como subtítulo «La superación del desempeño humano 
en la clasificación de ImageNet».[120] Casi al mismo tiempo, Microsoft 
anunció en un blog de investigación «un avance importante en la tecnología 
diseñada para identificar los objetos de una fotografía o un vídeo, que pone 
de relieve un sistema cuya precisión es equiparable y a veces superior a la 
de los seres humanos».[121] Aunque ambas empresas dejaron claro que 
hablaban de la precisión específicamente en ImageNet, los medios de 
comunicación tuvieron menos cautela y publicaron titulares sensacionalistas 
como «Los ordenadores ya reconocen y clasifican imágenes mejor que los 
humanos» y «Microsoft ha desarrollado un sistema informático que puede 
identificar objetos mejor que los humanos».[122] 

Vamos a detenernos a analizar la afirmación de que las máquinas ya 
reconocen los objetos de ImageNet «mejor que los humanos». Esta frase se 
basa en la suposición de que los humanos tienen una tasa de error de 
aproximadamente el 5 por ciento, mientras que la tasa de error de las 
máquinas es (en el momento de escribir esto) de casi el 2 por ciento. ¿No 
confirma esto que las máquinas desempeñan esta tarea mejor que los 
humanos? Como suele ocurrir con los eslóganes más aireados sobre la IA, 
la frase está acompañada de unas cuantas reservas. 

He aquí una de ellas. Cuando leemos que una máquina «identifica 
objetos correctamente», pensamos que, por ejemplo, ante una imagen de 
una pelota de baloncesto, el ordenador dice «pelota de baloncesto». Pero, 
claro, en ImageNet, «identificación correcta» solo quiere decir que entre las 
cinco mejores categorías aventuradas por el ordenador está la que es 
correcta. Si ante una imagen de una pelota de baloncesto el ordenador dice 
«bola de cróquet», «bikini», «jabalí», «pelota de baloncesto» y «furgoneta 


en movimiento», en ese orden, la respuesta se considera correcta. No sé con 
qué frecuencia suceden este tipo de cosas, pero es llamativo que en la 
competición de ImageNet de 2017, el mejor caso de «precisión en primer 
lugar» —la mínima parte de imágenes de prueba en las que la categoría 
acertada ocupa el primer lugar de la lista— fue de aproximadamente el 82 
por ciento, en comparación con el 98 por ciento de precisión de las cinco 
mejores. Que yo sepa, nadie ha comparado los aciertos de las máquinas y 
los humanos en una precisión de primer lugar. 

He aqui otra reserva. Veamos esta frase: «Los humanos tienen una tasa de 
error de alrededor del 5 por ciento en ImageNet». Resulta que la palabra 
humanos no es del todo exacta, porque se refiere al resultado de un 
experimento en el que participó un solo ser humano, un tal Andrej 
Karpathy, que en aquel entonces era estudiante de posgrado en Stanford y 
estaba investigando sobre el aprendizaje profundo. Karpathy quería saber si 
podía entrenarse a sí mismo para competir contra las mejores ConvNet en 
ImageNet. Teniendo en cuenta que las ConvNet se entrenan con 1,2 
millones de imágenes y luego se aplican a 150.000 imágenes de prueba, era 
una tarea abrumadora para un ser humano. Karpathy, que tiene un blog 
sobre IA muy popular, escribió sobre su experiencia: 

Acabé entrenándome con quinientas imágenes y luego estudié un conjunto de datos de prueba 

[reducido] de mil quinientas imágenes. El etiquetado [es decir, Karpathy adivinando cinco 

categorías por imagen] lo hice a un ritmo de aproximadamente una etiqueta por minuto, pero 

luego disminuyó con el tiempo. Solo disfruté de las primeras doscientas, más o menos, y 

continué con las demás en nombre de la ciencia... Algunas imágenes son fáciles de identificar, 

mientras que para otras con más matices (como las imágenes de razas de perros, pájaros o 


monos) hacen falta varios minutos de concentración. Aprendí a identificar muy bien razas de 
perros.[123] 


Karpathy descubrió que se había equivocado aproximadamente en setenta y 
cinco de sus mil quinientas imágenes de prueba y se propuso analizar los 
errores cometidos; vio que se daban sobre todo en imágenes con varios 
objetos, en imágenes con razas concretas de perros, especies de pájaros o 


plantas, etc., y en categorías de objetos que no se había dado cuenta de que 
estaban incluidas en las categorías de interés. Los tipos de errores que 
cometen las ConvNet son distintos: aunque también se confunden ante 
imágenes que contienen varios objetos, se diferencian de los humanos en 
que suelen pasar por alto los objetos pequeños, los que están distorsionados 
por filtros de color o de contraste que haya utilizado el fotógrafo y las 
«representaciones abstractas» de objetos, como un cuadro o una estatua de 
un perro o un perro de peluche. De modo que la afirmación de que los 
ordenadores han superado a los humanos en ImageNet hay que creérsela a 
medias. 

Y aquí hay otra reserva que quizá les sorprenda. Cuando un humano dice 
que una foto contiene, por ejemplo, un perro, suponemos que es porque 
realmente ha visto un perro en la foto. Pero si una ConvNet dice 
acertadamente «perro», ¿cómo sabemos que está basando esa clasificación 
en el perro de la imagen? Quizá hay en la imagen alguna otra cosa —una 
pelota de tenis, un frisbee, un zapato mordisqueado— que ha encontrado 
asociada a los perros en las imágenes de entrenamiento y entonces la 
reconoce y da por supuesto que hay un perro en la foto. Muchas veces, este 
tipo de correlaciones ha acabado engañando a las máquinas. 

Una cosa que podríamos hacer es pedir a la máquina que no solo asigne 
una categoría de objeto a una imagen, sino que también aprenda a dibujar 
un recuadro alrededor del objeto de interés, para que podamos saber que la 
máquina ha «visto» realmente el objeto. Eso es precisamente lo que la 
competición de ImageNet empezó a hacer en su segundo año con la 
«prueba de localización, que proporcionaba imágenes de entrenamiento con 
los recuadros ya dibujados (por trabajadores de Mechanical Turk) alrededor 
de los objetos de interés de cada imagen; en las imágenes de prueba, los 
programas competidores debían predecir cinco categorías de objetos, cada 
una con las coordenadas del recuadro correspondiente. Lo que tal vez es 
sorprendente es que, aunque las redes neuronales convolucionales 


profundas funcionan muy bien en localización, su comportamiento sigue 
siendo considerablemente peor que en categorización, si bien las 
competiciones más recientes están centrándose precisamente en este 
problema. 

Seguramente, las diferencias más importantes entre las ConvNet actuales 
y los seres humanos a la hora de reconocer objetos están en cómo aprenden 
y en lo sólido y fiable que resulta lo aprendido. Analizaré estas diferencias 
en el próximo capítulo. 

Las reservas que he enumerado no pretenden quitar importancia a los 
asombrosos avances recientes de la visión por ordenador. No hay duda de 
que las redes neuronales convolucionales han tenido un éxito asombroso en 
este campo y otros, un éxito que no solo ha derivado en productos 
comerciales sino que también ha generado un verdadero sentimiento de 
optimismo en el mundillo de la IA. El propósito de mi análisis es ilustrar lo 
difícil que es la visión y aportar una nueva perspectiva a los avances 
logrados hasta ahora. Queda todavía mucho para que la inteligencia 
artificial «resuelva» el reconocimiento de objetos. 


Más allá del reconocimiento de objetos 


En este capítulo me he centrado en el reconocimiento de objetos porque es 
el área en la que la visión por ordenador ha avanzado más en los últimos 
tiempos. Pero es evidente que la visión consiste en mucho más que 
reconocer objetos. Si el objetivo de la visión por ordenador es «conseguir 
que una máquina describa lo que ve», entonces las máquinas tendrán que 
reconocer no solo los objetos, sino también las relaciones entre ellos y con 
el mundo. Si los «objetos» en cuestión son seres vivos, las máquinas 
tendrán que saber algo sobre sus acciones, sus objetivos, sus emociones, los 
próximos pasos más probables y todos los demás aspectos que componen la 
narración de una escena visual. Además, si verdaderamente queremos que 
las máquinas describan lo que ven, tendrán que utilizar el lenguaje. Los 


investigadores sobre IA trabajan sin parar para conseguir que las máquinas 
hagan todo eso, pero, como de costumbre, las cosas «fáciles» son muy 
difíciles. Como declaró el experto en visión por ordenador Ali Farhadi a 
The New York Times, «todavía estamos muy muy lejos de la inteligencia 
visual, de entender las escenas y las acciones como lo hacen los seres 
humanos».[124] 

¿Por qué estamos aún tan lejos de este objetivo? Parece que no es fácil 
separar la inteligencia visual del resto de la inteligencia, sobre todo del 
conocimiento general, la abstracción y el lenguaje, unas aptitudes en las 
que, curiosamente, intervienen partes del cerebro que tienen muchas 
conexiones de retroalimentación con la corteza visual. Además, es posible 
que los conocimientos necesarios para una inteligencia visual similar a la 
humana —por ejemplo, la capacidad de interpretar la foto de «la soldado y 
el perro» del principio del capítulo anterior— no se puedan adquirir de 
millones de imágenes descargadas de la web, sino que tengan que 
experimentarse de una u otra manera en el mundo real. 

En el próximo capítulo voy a analizar con detalle el aprendizaje 
automático de la visión, sobre todo las diferencias entre la forma de 
aprender de los humanos y la de las máquinas, e intentaré averiguar qué han 
aprendido realmente las máquinas que hemos entrenado. 
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Un análisis detallado 
de las máquinas que aprenden 


E, pionero del aprendizaje profundo Yann LeCun ha recibido muchos 
premios y elogios, pero quizá su máximo honor (aunque friki) sea que le 
dedicaran una cuenta paródica de Twitter, muy divertida y con muchos 
seguidores, que lleva el nombre de «Bored Yann LeCun» (Yann LeCun 
aburrido). La cuenta, que es anónima y se describe como «Reflexiones 
sobre el auge del aprendizaje profundo en el tiempo libre de Yann», suele 
terminar sus ingeniosos tuits con el hashtag #FeelTheLearn (Siente lo 
aprendido).[125] 

De hecho, las noticias sobre los últimos avances de la IA en los medios 
de comunicación «sienten lo aprendido» cuando celebran el poder del 
aprendizaje profundo, con énfasis en el «aprendizaje». Nos dicen, por 
ejemplo, que «ahora podemos construir sistemas que aprenden a hacer 
tareas por sí solos»,[126] que «el aprendizaje profundo [permite] a los 
ordenadores enseñarse textualmente a sí mismos»[127] y que los sistemas de 
aprendizaje profundo aprenden «de manera similar al cerebro humano».[128] 

En este capítulo examinaré con más detalle cómo aprenden las máquinas 
—en particular las ConvNet— y en qué se diferencian sus procesos de 
aprendizaje de los de los humanos. Además, analizaré en qué afectan las 


diferencias entre el aprendizaje de las ConvNet y el de los humanos a la 
solidez y fiabilidad de lo aprendido. 


Aprender por sí solas 


El método de aprendizaje a partir de datos de las redes neuronales 
profundas ha demostrado tener más éxito, en general, que «la vieja 
estrategia de IA de toda la vida» en la que los programadores humanos 
elaboran unas reglas explícitas para obtener un comportamiento inteligente. 
Sin embargo, en contra de lo que se lee en algunos medios, el proceso de 
aprendizaje de las ConvNet se parece poco al de los humanos. 

Como hemos visto, las mejores ConvNet aprenden mediante un 
procedimiento de aprendizaje supervisado: cambian gradualmente los pesos 
a medida que procesan los ejemplos del conjunto de datos de entrenamiento 
una y otra vez, a lo largo de muchas épocas (es decir, muchas repeticiones 
con los datos de entrenamiento), aprendiendo a clasificar cada entrada 
dentro de un conjunto fijo de posibles categorías de salida. Por el contrario, 
los niños, ya desde muy pequeños, aprenden un conjunto abierto de 
categorías y pueden reconocer casos de la mayoría de las categorías después 
de ver solo unos cuantos ejemplos. Además, los niños no aprenden de 
forma pasiva: hacen preguntas, piden información sobre las cosas que 
despiertan su curiosidad, deducen abstracciones y conexiones entre 
conceptos y, sobre todo, exploran el mundo. 

No se puede decir que las ConvNet actuales aprenden «solas». Como 
vimos en el capítulo anterior, para que una ConvNet aprenda a hacer una 
tarea es necesario un enorme esfuerzo humano que permita recopilar, 
organizar y etiquetar los datos, además de diseñar todos los aspectos de su 
arquitectura. Aunque las ConvNet utilizan la retropropagación para 
aprender sus «parámetros» (es decir, los pesos) a partir de los ejemplos de 
entrenamiento, el aprendizaje es posible gracias a una serie de 
«hiperparámetros», un término genérico que abarca todos los aspectos de la 


red que el ser humano debe configurar solo para que el aprendizaje pueda 
comenzar. Entre esos hiperparámetros están el número de capas de la red, el 
tamaño de los «campos receptivos» de las unidades en cada capa, cuánto 
debe cambiar cada peso durante el aprendizaje (la llamada tasa de 
aprendizaje) y muchos otros detalles técnicos del proceso de entrenamiento. 
Esta parte de la configuración de una ConvNet se denomina ajuste de los 
hiperparámetros. Hay muchos valores que ajustar y complicadas decisiones 
de diseño que tomar, y esos ajustes y diseños tienen una relación compleja 
que influye en el comportamiento final de la red. Además, las decisiones 
sobre esos ajustes y diseños deben volver a tomarse ante cada tarea para la 
que es entrenada una red. 

Ajustar los hiperparámetros puede parecer bastante rutinario, pero es 
absolutamente crucial hacerlo bien para el éxito de las ConvNet y otros 
sistemas de aprendizaje automático. Como el diseño de estas redes no está 
cerrado, en general no es posible establecer de forma automática todos los 
parámetros y diseños, ni siquiera con la búsqueda automatizada. Muchas 
veces hace falta una especie de conocimiento cabalístico que los estudiantes 
de aprendizaje automático adquieren tanto a través de su formación con 
expertos como de la experiencia adquirida con tanto esfuerzo. Como dice 
Eric Horvitz, director del laboratorio de investigación de Microsoft: «Ahora 
mismo, lo que estamos haciendo no es una ciencia, sino una especie de 
alquimia».[129] Y estos «encantadores de redes» forman un club pequeño y 
selecto: según Demis Hassabis, cofundador de Google DeepMind, «sacar lo 
mejor de estos sistemas es casi un arte... No hay más que unos cientos de 
personas en el mundo capaces de hacerlo realmente bien».[130] 

En realidad, el número de expertos en aprendizaje profundo está 
aumentando a toda velocidad; muchas universidades ofrecen ya cursos 
sobre el tema, y hay cada vez más empresas con sus propios programas de 
formación en aprendizaje profundo para sus empleados. Pertenecer al club 
del aprendizaje profundo puede ser bastante lucrativo. En una conferencia a 


la que asistí hace poco, un directivo del grupo de productos de IA de 
Microsoft habló sobre la campaña de la empresa para contratar a jóvenes 
ingenieros especializados en aprendizaje profundo: «Si un chico sabe 
entrenar cinco capas de redes neuronales, puede pedir un salario de cinco 
cifras. Si sabe entrenar cincuenta capas, puede pedir un salario de siete 
cifras».[131] Por suerte para ese chico al que le espera tanta riqueza, las 
redes todavía no pueden aprender por sí solas. 


Macrodatos 


No es ningún secreto que el aprendizaje profundo necesita grandes 
volúmenes de datos. «Grandes» quiere decir más de un millón de imágenes 
de entrenamiento etiquetadas en ImageNet. ¿De dónde proceden todos esos 
datos? La respuesta es, por supuesto, que de ti y probablemente de todos tus 
conocidos. Las aplicaciones modernas de visión por ordenador solo son 
posibles gracias a los miles de millones de imágenes que los usuarios de 
internet suben y (a veces) etiquetan con un texto que identifica lo que 
aparece. ¿Alguna vez han subido una foto de un amigo a Facebook y la han 
comentado? Facebook se lo agradece. Esa imagen y ese texto pueden haber 
servido para entrenar su sistema de reconocimiento facial. ¿Alguna vez han 
subido una imagen a Flickr? En ese caso, es posible que su imagen forme 
parte del conjunto de entrenamiento de ImageNet. ¿Alguna vez han 
identificado una imagen para demostrar en una web que no son un robot? 
Esa identificación quizá ha ayudado a Google a etiquetar una imagen para 
usarla en el entrenamiento de su sistema de búsqueda de imágenes. 

Las grandes empresas tecnológicas ofrecen muchos servicios gratuitos en 
el ordenador y el teléfono móvil: búsqueda en internet, videollamadas, 
correo electrónico, redes sociales, asistentes personales automatizados..., 
una lista interminable. ¿Qué salen ganando? Quizá han oído decir que su 
verdadero producto son sus usuarios (como usted y como yo); los clientes 
son los anunciantes que captan nuestra atención y adquieren información 


sobre nosotros mientras utilizamos estos servicios «gratuitos». Pero hay una 
segunda respuesta: cuando utilizamos los servicios de empresas 
tecnológicas como Google, Amazon y Facebook, estamos proporcionando 
directamente a esas empresas ejemplos —imágenes, vídeos, mensajes de 
texto O voz— que pueden aprovechar para entrenar mejor sus programas de 
IA. Y esos programas mejorados atraen a más usuarios (y, por tanto, 
recogen más datos), lo que hace que los anunciantes puedan dirigir sus 
anuncios de forma más eficaz. Además, los ejemplos de entrenamiento que 
les proporcionamos pueden servir para entrenar y ofrecer a otras empresas 
servicios «de oficina», como la visión por ordenador y el procesamiento del 
lenguaje natural, a cambio de dinero. 

Se ha escrito mucho sobre la ética de estas grandes empresas que utilizan 
los datos que creamos nosotros (por ejemplo, todas las imágenes, los vídeos 
y los textos que colgamos en Facebook) para entrenar programas y vender 
productos sin decimoslo ni compensarnos. Es un debate importante, pero se 
sale del ámbito de este libro.[132 Lo que me interesa aquí es que la 
dependencia de extensas colecciones de datos de entrenamiento etiquetados 
es una diferencia más entre el aprendizaje profundo y el aprendizaje 
humano. 

Con la proliferación de sistemas de aprendizaje profundo en aplicaciones 
del mundo cotidiano, las empresas necesitan nuevos conjuntos de datos 
etiquetados para entrenar redes neuronales profundas. Un ejemplo 
destacable son los vehículos autónomos. Estos coches necesitan una visión 
por ordenador avanzada para reconocer los carriles de la carretera, los 
semáforos, las señales de stop y otros elementos, así como para distinguir y 
seguir la pista de distintos tipos de posibles obstáculos: otros coches, 
peatones, ciclistas, animales, conos de tráfico, cubos de basura volcados, 
matojos rodadores y cualquier otra cosa con la que no conviene chocar. Los 
coches autónomos tienen que aprender a identificar esos objetos —con sol, 
lluvia, nieve o niebla, de día o de noche— y a determinar cuáles pueden 


moverse y cuáles no. El aprendizaje profundo facilita esa tarea, al menos en 
parte, pero, como en otros ámbitos, necesita una enorme cantidad de 
ejemplos de entrenamiento. 

Las empresas de vehículos autónomos recogen esos ejemplos de 
entrenamiento en un sinnúmero de horas de vídeo grabadas por cámaras 
desde coches que circulan en medio del tráfico de calles y carreteras. Los 
coches pueden ser prototipos de conducción autónoma que las empresas 
están probando o, en el caso de Tesla, coches conducidos por clientes que, 
al comprar un vehículo, tienen que aceptar una política de intercambio de 
datos con la empresa.[133] 

Los propietarios de Tesla no tienen obligación de etiquetar todos los 
objetos que aparecen en los vídeos grabados por sus coches. Pero alguien 
tiene que hacerlo. En 2017, el Financial Times informó de que «la mayoría 
de las empresas que desarrollan esta tecnología emplean a cientos e incluso 
miles de personas, muchas veces en centros deslocalizados en India o 
China, cuyo trabajo consiste en enseñar a los coches robot a reconocer 
peatones, ciclistas y otros obstáculos. Los empleados marcan o “etiquetan” 
manualmente miles de horas de vídeo, a menudo fotograma a fotograma». 
[134] Han nacido nuevas empresas que proporcionan el servicio del 
etiquetado de datos; por ejemplo, Mighty AI ofrece «los datos etiquetados 
que necesitas para entrenar tus modelos de visión por ordenador» y promete 
«anotadores conocidos, verificados y de confianza, especializados en datos 
de conducción autónoma».[135] 


La cola larga 


El método de aprendizaje supervisado, que utiliza grandes conjuntos de 
datos y ejércitos de anotadores humanos, funciona bien al menos para parte 
de las aptitudes visuales que necesitan los coches autónomos (muchas 
empresas están investigando también el uso de programas de conducción 
simulada, similares a los videojuegos, para reforzar el entrenamiento). Pero 


¿qué sucede en otros aspectos de la vida? Prácticamente todos los que 
trabajan en el campo de la IA coinciden en que el aprendizaje supervisado 
no es un método viable para la IA de espectro general. Como ha advertido 
el prestigioso investigador sobre IA Andrew Ng: «La necesidad de tantos 
datos es una de las principales limitaciones actuales [del aprendizaje 
profundo]».[136] Yoshua Bengio, otro destacado investigador de IA, está de 
acuerdo: «No es realista pensar que podemos etiquetar todo lo que hay en el 
mundo y explicar meticulosamente hasta el último detalle al ordenador». 
[137] 

El problema se ve agravado por la llamada cuestión de las colas largas: la 
gran variedad de posibles situaciones inesperadas con las que puede 
encontrarse un sistema de IA. La figura 13 (en la página siguiente) ilustra 
este fenómeno mostrando la probabilidad de que se produzcan varias 
situaciones hipotéticas con las que puede encontrarse un coche autónomo, 
por ejemplo, circulando durante un día. Las situaciones muy corrientes, 
como toparse con un semáforo en rojo o una señal de stop, se clasifican 
como muy probables; las situaciones con una probabilidad media son, por 
ejemplo, cristales rotos y bolsas de plástico azotadas por el viento, que no 
se encuentran todos los días (dependiendo de por dónde circule el coche), 
pero no son infrecuentes. Menos probable es que el coche autónomo se 
encuentre con una carretera inundada o con los carriles tapados por la nieve, 
y todavía menos que se tope con un muñeco de nieve en medio de una 
autopista. 

Se me han ocurrido estas situaciones y he calculado sus probabilidades; 
seguro que a cada persona se le ocurren muchas más. Probablemente, cada 
uno de estos coches es seguro: al fin y al cabo, en total, los coches 
autónomos experimentales han recorrido ya millones de kilómetros y han 
causado un número relativamente pequeño de accidentes (aunque algunos 
han sido mortales y han tenido gran repercusión). Ahora bien, cuando los 
coches autónomos se generalicen, aunque cada situación concreta 


improbable sea, por definición, muy improbable, hay tantas situaciones 
posibles en el mundo de la conducción y tantos coches que sí es probable 
que algún coche autónomo, en algún lugar y en algún momento, se 
encuentre con una de esas situaciones. 


Situación Probabilidad 


Ve un semáforo en rojo 

Ve una señal de stop 

Hay un obrero de la construcción dirigiendo el tráfico 
Hay cristales rotos en la calzada 


El coche que circula detrás está demasiado cerca 


El coche de delante lleva tres kilómetros con el 
intermitente encendido sin girar hacia la izquierda 


Hay una bolsa de plástico volando delante 

Hay un grupo de palomas en la calzada 

La carretera está inundada 

La nieve cubre las líneas de delimitación de los carriles 


Los semáforos no funcionan debido a un apagón 


El semáforo ha permanecido en rojo más de cinco 
minutos a pesar de que las calles están vacías 


a 
a. 
D 
D 
2 
a 
D 


Va circulando a 70 km/h y de repente ve 
un muñeco de nieve en medio de la carretera 


Figura 13. Posibles situaciones con las que puede encontrarse un coche autónomo, 
clasificadas por probabilidad, lo que ilustra la «cola larga» de situaciones improbables. 


El término cola larga procede de la estadística, en la que ciertas 
distribuciones de probabilidad tienen una forma similar a la de la figura 13: 


la larga lista de situaciones muy improbables (pero posibles) es la «cola» de 
la distribución. (Las situaciones que forman la cola se denominan a veces 
casos extremos). La mayoría de los ámbitos reales en los que actúa la IA 
contienen este fenómeno de cola larga: los acontecimientos del mundo real 
suelen ser predecibles, pero queda una larga cola de sucesos inesperados y 
poco probables. Eso supone un problema si, para proporcionar a nuestro 
sistema de IA su conocimiento del mundo, nos fiamos únicamente del 
aprendizaje supervisado; las situaciones de la cola no aparecen suficientes 
veces en los datos de entrenamiento, si es que aparecen, por lo que hay más 
probabilidades de que el sistema cometa errores cuando se encuentre con 
esos casos inesperados. 


Figura 14. Hubo informaciones de que las líneas de sal en una autopista, antes de una 
tormenta de nieve prevista, confundían a la función Autopilot de Tesla. 


Mostraré dos ejemplos reales. En marzo de 2016 se preveía una gran 
tormenta de nieve en el nordeste de Estados Unidos y en Twitter 
aparecieron informaciones de que el modo Autopilot de los vehículos Tesla, 
que permite una conducción autónoma limitada, confundía las líneas de los 
carriles y los montones de sal colocados en línea en la autopista en 
previsión de la tormenta (figura 14). En febrero de 2016, uno de los 
prototipos de coches autónomos de Google, que estaba girando a la derecha, 
tuvo que virar a la izquierda para evitar unos sacos de arena en el arcén 
derecho de una carretera de California y golpeó con la parte delantera 
izquierda un autobús público que circulaba por el carril izquierdo. Cada 
vehículo había contado con que el otro le cediera el paso (quizá el 
conductor del autobús pensaba que un conductor humano se sentiría 
intimidado por el autobús, mucho más grande). 

Las empresas que desarrollan la tecnología de vehículos autónomos son 
muy conscientes del problema de la cola larga: sus equipos no paran de 
imaginar posibles situaciones de cola larga y crean sin cesar nuevos 
ejemplos de formación y estrategias codificadas especialmente para todas 
las situaciones poco probables que se les ocurren. Pero está claro que es 
imposible entrenar o codificar un sistema para todas las situaciones 
posibles. 

Una solución que suele proponerse es que los sistemas de IA utilicen el 
aprendizaje supervisado con pequeñas cantidades de datos etiquetados y 
adquieran todo lo demás mediante aprendizaje no supervisado. 
«Aprendizaje no supervisado» engloba un vago conjunto de métodos para 
aprender categorías o acciones sin datos etiquetados, como los métodos 
para agrupar ejemplos con arreglo a su similitud o para aprender una nueva 
categoría por analogía con categorías conocidas, entre otros. Como 
explicaré en un capítulo posterior, a los humanos se les da muy bien 


percibir similitudes y analogías abstractas, pero hasta ahora no existen 
métodos que hayan tenido mucho éxito en este tipo de aprendizaje no 
supervisado de la IA. El propio Yann LeCun reconoce que «el aprendizaje 
no supervisado es la materia oscura de la IA». En otras palabras, para la IA 
general, casi todo el aprendizaje tendrá que ser no supervisado, pero nadie 
ha dado todavía con el tipo de algoritmos necesarios para hacer ese 
aprendizaje no supervisado con buenos resultados. 

Los humanos cometen errores constantemente, incluso (o especialmente) 
al volante; cualquiera de nosotros podría haber chocado con ese autobús si 
hubiéramos tenido que sortear los sacos de arena. Pero los humanos 
también tienen una competencia fundamental de la que carecen todos los 
sistemas de IA actuales: el sentido común. Tenemos un amplio 
conocimiento de fondo del mundo, tanto en el aspecto físico como en el 
social. Tenemos una idea bastante clara de cómo es probable que vayan a 
comportarse los objetos —tanto inanimados como vivos—, y utilizamos ese 
conocimiento para decidir cómo actuar en una situación determinada. 
Podemos deducir el motivo de los montones de sal en la carretera aunque 
nunca hayamos conducido con nieve. Sabemos relacionarnos socialmente 
con otros seres humanos, así que podemos hacer contacto visual, señales 
con las manos y otros gestos para compensar un semáforo estropeado 
durante un apagón. En general, sabemos que debemos ceder el paso a un 
autobús de transporte público, aunque en teoría tengamos prioridad. He 
puesto un ejemplo del tráfico, pero los seres humanos utilizamos el sentido 
común —casi siempre de forma subconsciente— en todas las facetas de la 
vida. Mucha gente cree que hasta que los sistemas de IA no tengan el 
mismo sentido común que los humanos, no podremos confiar en que sean 
totalmente autónomos en situaciones complejas del mundo real. 


Figura 15. Ilustración de la tarea de clasificación como «animal» y «no animal». Obsérvese 
el fondo borroso en la imagen de la izquierda. 


¿Qué ha aprendido mi red? 


Hace unos años, Will Landecker, entonces estudiante de posgrado en mi 
grupo de investigación, entrenó una red neuronal profunda para clasificar 
fotografías en dos categorías: «contiene un animal» y «no contiene un 
animal». La red se entrenó con fotos como las de la figura 15 y obtuvo muy 
buenos resultados con las imágenes de prueba. Pero ¿qué aprendió 
realmente la red? Will llevó a cabo un análisis minucioso y se encontró con 
una respuesta inesperada: en parte, la red había aprendido a clasificar las 
imágenes con fondo borroso como «contiene un animal», tanto si había 
verdaderamente un animal como si no.[138] Las fotos de naturaleza de los 
conjuntos de entrenamiento y de prueba seguían una regla importante en 
fotografía: el foco es el sujeto de la foto. Cuando el sujeto de la foto es un 
animal, el animal es el foco y el fondo está borroso, como en la figura 15A. 
Cuando el sujeto de la foto es el fondo, como en la figura 15B, no se 
desenfoca nada. Para desilusión de Will, su red no había aprendido a 
reconocer animales, sino que utilizaba pistas más simples —como los 


fondos borrosos— que estadísticamente estaban asociadas a la presencia de 
animales. 

Este es un ejemplo de un fenómeno habitual en el aprendizaje 
automático. La máquina aprende lo que observa en los datos, no lo que 
nosotros (los humanos) podríamos observar. Si hay asociaciones 
estadísticas en los datos de entrenamiento, aunque sean irrelevantes para la 
tarea en cuestión, la máquina aprenderá eso, no lo que nosotros queríamos 
que aprendiera. Si la máquina hace una prueba con nuevos datos que 
incluyan las mismas asociaciones estadísticas, parecerá que ha aprendido a 
resolver la tarea. Pero la máquina puede fallar de forma inesperada, como le 
ocurrió a la red de Will con las imágenes de animales que no tenían un 
fondo borroso. En el lenguaje del aprendizaje automático, la red de Will se 
«sobreajustó» a su conjunto de entrenamiento específico y, por tanto, no 
pudo aplicar bien lo aprendido a otras imágenes que no fueran las del 
entrenamiento. 

En los últimos años, varios equipos han investigado si las ConvNet 
entrenadas en ImageNet y otros grandes conjuntos de datos se han 
sobreajustado de esa forma a sus datos de entrenamiento. Un grupo ha 
demostrado que si las ConvNet se entrenan con imágenes descargadas de 
internet (como las de ImageNet), tienen más problemas con imágenes 
tomadas por un robot mientras se desplaza por una casa con una cámara. 
[139] Parece que las vistas aleatorias de objetos domésticos pueden ser muy 
distintas de las fotos que la gente cuelga en la web. Otros grupos han 
demostrado que una modificación superficial de las fotos, como difuminar o 
llenar de puntos una imagen, cambiar algunos colores o rotar varios objetos 
de la escena, pueden hacer que las ConvNet cometan errores significativos 
cuando esas perturbaciones no impiden que los humanos reconozcan los 
objetos.[140] Esta inesperada fragilidad de las ConvNet —incluso de 
aquellas que supuestamente «superan a los humanos en el reconocimiento 


de objetos»— indica que se están ajustando en exceso a sus datos de 
entrenamiento y aprendiendo algo distinto de lo que intentamos enseñarles. 


Una lA sesgada 


La poca fiabilidad de las ConvNet puede desembocar en errores 
embarazosos y quizá perjudiciales. En 2015, Google vivió una situación de 
pesadilla para su reputación cuando presentó una función de etiquetado 
automático de fotos (mediante una ConvNet) en su aplicación Fotos. 
Además de etiquetar correctamente imágenes con descripciones genéricas 
como «aviones», «coches» y «graduación», la red neuronal asignó a un selfi 
en el que aparecían dos afroamericanos la etiqueta de «gorilas», como se 
muestra en la figura 16 (en la página siguiente). (Después de pedir muchas 
disculpas, la solución inmediata de la empresa fue eliminar la etiqueta 
«gorilas» de la lista de categorías posibles). 

Estos errores de clasificación, repugnantes y muy ridiculizados, son 
embarazosos para las empresas implicadas, pero con frecuencia se han visto 
errores más sutiles debidos a sesgos raciales o de género en sistemas de 
visión basados en el aprendizaje profundo. Los sistemas comerciales de 
reconocimiento facial, por ejemplo, tienden a ser más precisos con los 
rostros masculinos blancos que con los rostros femeninos o no blancos.[141] 
Los programas de detección facial tienden a veces a pasar por alto los 
rostros de piel oscura y a clasificar los rostros asiáticos como 
«parpadeantes» (figura 17). 
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Figura 16. Etiquetas asignadas a fotos por el etiquetador automático de fotos de Google, 
incluida la infame etiqueta de «gorilas». 


Kate Crawford, investigadora de Microsoft y activista en favor de la 
equidad y la transparencia en la IA, destaca que los rostros contenidos en un 
conjunto de datos muy utilizado para entrenar sistemas de reconocimiento 
facial son en un 77,5 por ciento de hombres y en un 83,5 por ciento de 
blancos. Esto no es nada raro, porque las imágenes se descargaron a partir 
de búsquedas en internet, donde existe un sesgo a favor de personas 
famosas o poderosas, que son predominantemente blancas y masculinas. 

Por supuesto, estos sesgos en los datos de entrenamiento de la IA reflejan 
los sesgos de nuestra sociedad, pero la generalización en el mundo real de 
sistemas de IA entrenados con datos sesgados puede agravarlos y causar 
daños considerables. Por ejemplo, los sistemas de reconocimiento facial se 
utilizan cada vez más como forma «segura» de identificar a las personas en 
las transacciones con tarjetas de crédito, los controles de los aeropuertos y 
las cámaras de seguridad, y puede que no falte mucho para que se utilicen 


como método de identificación en los sistemas de votación, entre otras 
aplicaciones. La más mínima diferencia de precisión entre unos grupos 
raciales y otros puede tener consecuencias perjudiciales para los derechos 
civiles y el acceso a servicios vitales. 
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Figura 17. Ejemplo de un programa de detección de rostros por cámara que identifica un 
rostro asiático como «parpadeante». 


En conjuntos de datos específicos es posible mitigar estos sesgos si se 
encarga a seres humanos que se aseguren de que las fotos (o cualquier otro 
tipo de datos) mantengan el equilibrio en su representación de, por ejemplo, 
grupos raciales o de género. Pero para ello es necesario que las personas 
que organizan los datos sean conscientes de ello y realicen su tarea de 
forma cuidadosa. Además, muchas veces es difícil detectar los sesgos 
sutiles y sus efectos. Por ejemplo, un grupo de investigación observó que su 
sistema de IA —entrenado con un gran conjunto de fotos de personas en 
diferentes situaciones— a veces se equivocaba y clasificaba a un hombre 
como «mujer» cuando aparecía en una cocina, un entorno en el que el 
conjunto de datos tenía más ejemplos de mujeres.[142] En general, este tipo 
de sesgo sutil puede ser evidente a posteriori, pero es difícil de detectar con 
antelación. 


El problema del sesgo en las aplicaciones de IA ha sido objeto de mucha 
atención en los últimos tiempos, con numerosos artículos, talleres e incluso 
institutos de investigación académica dedicados a este tema. ¿Los conjuntos 
de datos que se utilizan para entrenar la IA deben reflejar fielmente los 
sesgos de nuestra sociedad —como suelen hacer en la actualidad—, o 
habría que retocarlos específicamente para cumplir objetivos de reforma 
social? ¿Y quién debería poder concretar los objetivos o hacer los retoques? 


Enseñar cómo se ha hecho 


¿Recuerdan cuando, en el colegio, el profesor escribía en rojo «enséñame 
cómo lo has hecho» en los deberes de matemáticas? Para mí, explicar cómo 
lo había hecho era la parte menos divertida de aprender matemáticas, pero 
seguramente era la más importante, porque decir cómo había deducido mi 
respuesta demostraba que verdaderamente había entendido lo que estaba 
haciendo, que había captado las abstracciones correctas y había llegado a la 
respuesta como era debido. Además, enseñar cómo lo había hecho también 
ayudaba a mi profesor a saber por qué cometía determinados errores. 

En general, se puede confiar en que una persona sabe lo que hace si es 
capaz de explicar cómo ha llegado a una respuesta o a una decisión. Sin 
embargo, «enseñar cómo lo han hecho» no es algo que las redes neuronales 
profundas —la base de los sistemas modernos de IA— puedan hacer así 
como así. Volvamos a la tarea de identificar objetos como «perros» y 
«gatos» que describí en el capítulo 4. Recordemos que una red neuronal 
convolucional decide qué objeto hay en una imagen que le llega mediante 
una secuencia de operaciones matemáticas (convoluciones) propagadas a 
través de muchas capas. En una red de tamaño razonable, pueden hacerse 
hasta miles de millones de operaciones aritméticas. Sería fácil programar el 
ordenador para que imprima una lista de todas las sumas y multiplicaciones 
hechas por una red para una entrada determinada, pero esa lista no nos 
permitiría saber absolutamente nada de cómo ha llegado la red a su 


respuesta. Una lista de mil millones de operaciones no es una explicación 
que un humano pueda entender. Ni siquiera los humanos que entrenan redes 
profundas, en general, pueden mirar bajo el capó y explicar las decisiones 
que toman sus redes. La revista Technology Review, del MIT, llamó a esta 
impenetrabilidad «el oscuro secreto en el corazón de la IA».[143] Lo que 
preocupa es que si no entendemos cómo funcionan los sistemas de IA, no 
podemos confiar realmente en ellos ni predecir en qué circunstancias 
cometerán errores. 

Los seres humanos tampoco pueden explicar siempre sus procesos 
mentales, y, en general, no es posible mirar «bajo el capó» y hurgar en el 
cerebro de otra persona (o en sus «instintos») para averiguar cómo ha 
llegado a una decisión concreta. Pero los humanos tendemos a confiar en 
que otros humanos dominan tareas cognitivas básicas como el 
reconocimiento de objetos y la comprensión del lenguaje. En parte, 
confiamos en los demás cuando creemos que su forma de pensar es como la 
nuestra. En la mayoría de los casos, suponemos que los demás seres 
humanos con los que nos encontramos han tenido experiencias vitales 
bastante similares a las nuestras y, por tanto, que se basan en los mismos 
conocimientos básicos, creencias y valores que nosotros a la hora de 
percibir, describir y tomar decisiones sobre el mundo. En resumen, en 
nuestra relación con otras personas, tenemos lo que los psicólogos llaman 
una teoría de la mente: un modelo de los conocimientos y objetivos de la 
otra persona en situaciones concretas. Nadie tiene una «teoría de la mente» 
similar en relación con sistemas de IA como las redes profundas, por lo que 
es más difícil confiar en ellos. 

No es extraño que uno de los nuevos campos más de moda de la IA sea el 
que llaman «IA explicable», «IA transparente» o «aprendizaje automático 
interpretable». Estos términos designan la investigación sobre cómo 
conseguir que los sistemas de IA —en especial las redes profundas— 
expliquen sus decisiones de manera comprensible para los humanos. Los 


investigadores de este terreno han concebido astutas formas para visualizar 
los elementos que ha aprendido una red neuronal convolucional y, en 
algunos casos, determinar qué partes de la información de entrada pesan 
más en la decisión de salida. La IA explicable es un campo que avanza con 
rapidez, pero todavía no se ha conseguido crear un sistema de aprendizaje 
profundo capaz de explicarse a sí mismo en términos humanos. 


Engañar a las redes neuronales profundas 


Hay otra dimensión más en la cuestión de la fiabilidad de la IA: los 
investigadores han descubierto que para los humanos es asombrosamente 
fácil engañar a las redes neuronales profundas para que cometan errores. Es 
decir, si queremos engañar deliberadamente a un sistema de este tipo, 
resulta que hay una terrible cantidad de maneras de hacerlo. 

Engañar a los sistemas de inteligencia artificial no es nuevo. Quienes 
llenan de spam nuestros correos electrónicos, por ejemplo, llevan décadas 
en una carrera armamentística con los programas centrados en su detección. 
Pero los ataques a los que parecen ser vulnerables los sistemas de 
aprendizaje profundo son al mismo tiempo más sutiles y más preocupantes. 

¿Recuerdan AlexNet, de la que hablé en el capítulo 5? Era la red 
neuronal convolucional que ganó el concurso de ImageNet de 2012 e inició 
el dominio de las ConvNet en gran parte del mundo de la IA actual. 
Recordarán que la precisión de AlexNet (con las cinco mejores conjeturas) 
en ImageNet fue del 85 por ciento, con lo que eliminó a todos los demás 
competidores y asombró al mundo de la visión por ordenador. Sin embargo, 
un año después de la victoria de AlexNet, apareció un artículo de 
investigación escrito por Christian Szegedy, de Google, y varios otros, con 
el título engañosamente suave de «Intrigantes propiedades de las redes 
neuronales».[1441 Una de las «propiedades intrigantes» descritas en el 
ensayo era que resultaba fácil engañar a AlexNet. 


En concreto, los autores del artículo habían descubierto que podían coger 
una foto de ImageNet que AlexNet había clasificado acertadamente y con 
gran seguridad (por ejemplo, «autobús escolar») y distorsionarla con 
cambios muy pequeños y específicos en sus píxeles, de modo que la imagen 
distorsionada les pareciera completamente igual a los humanos, pero 
AlexNet ahora la clasificara con un grado de seguridad muy alto como algo 
completamente diferente (por ejemplo, «avestruz»). A la imagen 
distorsionada le dieron el nombre de «ejemplo antagónico». La figura 18 
muestra varios ejemplos de imágenes originales y sus gemelas antagónicas. 
¿No notan la diferencia? ¡Enhorabuena! Se ve que son humanos. 


Autobús escolar Avestruz Mantis religiosa Avestruz 


Templo Avestruz Shih tzu Avestruz 


Figura 18. Ejemplos originales y «antagónicos» para AlexNet. La imagen de la izquierda de 
cada par muestra la imagen original, correctamente clasificada por AlexNet. La imagen de 
la derecha de cada par muestra el ejemplo antagónico derivado de esa imagen (se han hecho 
pequeñas modificaciones en los píxeles, pero a los humanos la nueva imagen les parece 
idéntica a la original). 


Szegedy y sus colaboradores crearon un programa informático que, con 
cualquier foto de ImageNet correctamente clasificada por AlexNet, podía 
encontrar cambios específicos en la foto para crear un nuevo ejemplo 


antagónico que a los humanos les pareciera inalterado pero que hiciera que 
AlexNet asignara una categoría incorrecta con la máxima seguridad. 

Es importante señalar que Szegedy y sus colaboradores vieron que esta 
vulnerabilidad a los ejemplos antagónicos no era exclusiva de AlexNet, 
demostrando que otras ConvNet —con diferentes arquitecturas, 
hiperparámetros y conjuntos de _ entrenamiento— presentaban 
vulnerabilidades similares. Llamar a esto una «propiedad intrigante» de las 
redes neuronales es más o menos como decir que un agujero en el casco de 
un crucero de lujo es una «faceta del barco que da que pensar». Intrigante, 
sí, y hace falta investigar más, pero si no se arregla la fuga, el barco se va a 


pique. 


Figura 19. Ejemplos de imágenes creadas por un algoritmo genético específicamente para 


engañar a una red neuronal convolucional (ConvNet). En cada caso, AlexNet (entrenada 
con el conjunto de datos de entrenamiento de ImageNet) asignó una seguridad superior al 
99 por ciento a la respuesta de que la imagen era un caso de la categoría mostrada. 


Poco después de la publicación del artículo de Szegedy y sus colegas, un 
grupo de la Universidad de Wyoming publicó un artículo con un título más 


directo: «Las redes neuronales profundas son fáciles de engañar».[145] 
Utilizando un método computacional inspirado en la biología denominado 
algoritmos genéticos,[146] el grupo de Wyoming fue capaz de «desarrollar» 
por ordenador imágenes que a los humanos les parecían ruido blanco pero a 
las que AlexNet y otras redes neuronales convolucionales asignaban 
categorías concretas de objetos con una seguridad superior al 99 por ciento. 
La figura 19 muestra algunos ejemplos. El grupo de Wyoming observó que 
las redes neuronales profundas (DNN, por sus siglas en inglés) «ven estos 
objetos como ejemplos casi perfectos de imágenes reconocibles», lo que 
«[suscita] dudas sobre la verdadera capacidad de generalización de las 
DNN y las posibilidades de que se haga un uso de las soluciones que 
emplean DNN que acabe saliendo caro [es decir, aplicaciones maliciosas]». 
[147] 

De hecho, estos dos artículos y otros descubrimientos posteriores en este 
sentido suscitaron no solo dudas sino auténtica alarma en el mundo del 
aprendizaje profundo. Si los sistemas de aprendizaje profundo, tan eficaces 
en visión por ordenador y otras tareas, pueden ser engañados tan fácilmente 
con manipulaciones que no confunden a los humanos, ¿cómo podemos 
decir que estas redes «aprenden como los humanos» o «igualan o superan a 
los humanos» en sus capacidades? Está claro que aquí estamos ante algo 
muy distinto de la percepción humana. Y si estas redes se van a utilizar para 
la visión por ordenador en el mundo real, más vale que nos aseguremos de 
que están protegidas contra los piratas informáticos que utilizan este tipo de 
manipulaciones para engañarlas. 

Todo esto ha revitalizado la pequeña comunidad investigadora que se 
dedica al «aprendizaje antagónico», es decir, al desarrollo de estrategias de 
defensa contra posibles antagonistas (humanos) que podrían atacar los 
sistemas de aprendizaje automático. Los investigadores sobre aprendizaje 
antagónico suelen empezar por mostrar formas posibles de atacar los 
sistemas actuales, y algunas de las demostraciones recientes han sido 


asombrosas. En el campo de la visión por ordenador, un grupo de 
investigadores ha desarrollado un programa capaz de crear monturas de 
gafas con dibujos específicos que engañan a un sistema de reconocimiento 
facial para que se equivoque e identifique al usuario como otra persona 
(figura 20, en la página siguiente).[148] Otro grupo ha desarrollado unas 
pegatinas pequeñas y discretas que pueden colocarse en una señal de tráfico 
y hacen que un sistema de visión basado en ConvNet —del tipo de los 
utilizados en los coches autónomos— clasifique erróneamente la señal (por 
ejemplo, identifica una señal de stop como una señal de límite de 
velocidad).[149] Un tercer grupo ha presentado un posible ataque antagónico 
contra redes neuronales profundas empleadas en el análisis de imágenes 
médicas: demostraron que no es difícil alterar una imagen de rayos X o de 
microscopio de forma imperceptible para los humanos pero que hace que 
una red cambie su dictamen de, por ejemplo, un 99 por ciento de seguridad 
en que la imagen no muestra cáncer a un 99 por ciento de seguridad en que 
sí hay cáncer.[150] Este grupo subraya que el personal hospitalario u otros 
profesionales podrían utilizar ese tipo de ataques para crear diagnósticos 
fraudulentos y así cobrar a las compañías de seguros por más (y lucrativas) 
pruebas de diagnóstico. 


Figura 20. Un investigador de IA (izquierda) lleva monturas de gafas con un patrón 
especialmente diseñado para que una red neuronal profunda de reconocimiento facial, 


entrenada con rostros de famosos, clasifique con seguridad la foto de la izquierda como la 
actriz Milla Jovovich (derecha). El artículo en el que se describe este estudio da muchos 
otros ejemplos de suplantación de identidad utilizando patrones de montura de gafas 
«antagónicos». 


Estos son solo algunos ejemplos de los posibles ataques que han 
imaginado diversos grupos de investigación. Muchos de ellos exhiben una 
solidez asombrosa: funcionan en varias redes distintas, incluso cuando se 
las entrena con conjuntos de datos diferentes. Y la visión por ordenador no 
es el único campo en el que se puede engañar a las redes; los investigadores 
también han diseñado ataques que engañan a las redes neuronales profundas 
relacionadas con el lenguaje en aspectos como el reconocimiento del habla 
y el análisis de texto. Es de suponer que a medida que estos sistemas se 
vayan extendiendo en el mundo real, los usuarios malintencionados 
descubran en ellos muchas otras vulnerabilidades. 

Aprender a comprender estos posibles ataques y defenderse de ellos es un 
área actual de investigación importante, pero, aunque se han encontrado 
soluciones para tipos concretos de ataques, todavía no existe un método de 
defensa general. Como en cualquier otro campo de la seguridad 
informática, los avances conseguidos hasta ahora son más bien como un 
«juego del topo», en el que se detecta y se defiende un agujero de 
seguridad, pero aparecen otros que necesitan nuevas defensas. lan 
Goodfellow, un experto en IA que forma parte del equipo de Google Brain, 
explica: «En estos momentos se puede hacer casi todo lo malo que se nos 
pueda ocurrir hacerle a un modelo de aprendizaje automático [...], y 
defenderlo es verdaderamente muy difícil».[151] 

Aparte del problema inmediato de cómo defenderse de los ataques, la 
existencia de ejemplos antagónicos da más resonancia a la pregunta que he 
hecho antes: ¿qué están aprendiendo estas redes? En concreto, ¿qué están 
aprendiendo para que sea tan fácil engañarlas? O quizá más importante, 
¿nos estamos engañando a nosotros mismos cuando pensamos que estas 


redes han aprendido verdaderamente los conceptos que intentamos 
enseñarles? 

A mi juicio, el problema fundamental es de comprensión. Veamos la 
figura 18, en la que AlexNet confunde un autobús escolar con un avestruz. 
¿Por qué es tan improbable que le pase a un ser humano? Aunque AlexNet 
funciona muy bien en ImageNet, los humanos entendemos muchas cosas 
sobre los objetos que vemos que no saben ni AlexNet ni otros sistemas de 
IA actuales. Sabemos cómo son los objetos en tres dimensiones y podemos 
imaginárnoslos a partir de una foto bidimensional. Sabemos cuál es la 
función de un objeto determinado, qué papel desempeñan las partes del 
objeto en su función general y en qué contextos suele aparecer. Cuando 
vemos un objeto nos acordamos de haber visto otros iguales en distintas 
circunstancias y desde otros puntos de vista, además de haberlos percibido 
en otras modalidades sensoriales (recordamos el tacto de un objeto 
determinado, cómo huele, quizá cómo suena cuando se deja caer, etc.). 
Todos estos conocimientos previos contribuyen a la capacidad humana de 
identificar con claridad un objeto concreto. Incluso los mejores sistemas de 
visión artificial carecen de este tipo de conocimiento y de la solidez que eso 
les otorgaría. 


Figura 21. Una ilusión visual para los humanos: los segmentos de línea horizontal en A y B 
tienen la misma longitud, pero la mayoría de la gente percibe que el segmento en A es más 
largo que el de B. 


He oído decir a algunos investigadores de IA que los humanos también 
somos vulnerables a nuestros propios tipos de «ejemplos antagónicos»: las 
ilusiones ópticas. Igual que AlexNet clasifica un autobús escolar como un 
avestruz, los humanos somos susceptibles de cometer errores de percepción 
(por ejemplo, nos parece que la línea superior de la figura 21 es más larga 
que la inferior, aunque en realidad ambas tienen la misma longitud). Pero 
los errores que cometemos los humanos son muy distintos de los que 
cometen las redes neuronales convolucionales: nuestra Capacidad de 
reconocer objetos en escenas cotidianas ha evolucionado hasta ser muy 
sólida porque dependemos de ella para sobrevivir. A diferencia de las 
ConvNet actuales, la percepción humana (y animal) está muy regulada por 
la cognición, la comprensión basada en el contexto de la que he hablado 
antes. Además, las ConvNet que se utilizan hoy en día en las aplicaciones 
de visión por ordenador suelen ser totalmente de «prealimentación», 
mientras que el sistema visual humano tiene muchas más conexiones de 
«retroalimentación» (es decir, en dirección inversa) que de 
«prealimentación». Aunque los neurocientíficos aún no comprenden la 
función de toda esta retroalimentación, se podría aventurar que al menos 
algunas de esas conexiones de retroalimentación consiguen prevenir la 
vulnerabilidad a ejemplos antagónicos como los casos a los que son 
susceptibles las ConvNet. Si es así, ¿por qué no dar a las ConvNet el mismo 
tipo de retroalimentación? Es un área en la que se está investigando, pero es 
muy difícil y no ha tenido tanto éxito como las redes de prealimentación. 

Jeff Clune, investigador de IA de la Universidad de Wyoming, hizo una 
analogía muy estimulante cuando señaló que hay un gran interés en saber si 
el aprendizaje profundo es «verdadera inteligencia» o un «Hans el Listo». 
[152] Hans el Listo fue un caballo alemán de principios del siglo xx que, 


según su dueño, podía hacer cálculos aritméticos y entendía alemán. El 
caballo respondía a preguntas como «¿Cuánto es quince dividido por tres?» 
golpeando con la pezuña la cifra correcta. Después de que Hans el Listo se 
convirtiera en una celebridad internacional, una minuciosa investigación 
reveló que el caballo no entendía las preguntas ni los conceptos 
matemáticos que se le planteaban, sino que daba los golpes en función de 
unas señales sutiles que daba inconscientemente quien le preguntaba. Hans 
el Listo se ha convertido en una forma de llamar a cualquier individuo (o 
programa) que da la impresión de comprender pero que, en realidad, 
reacciona ante las señales involuntarias del entrenador. ¿El aprendizaje 
profundo tiene «verdadera comprensión» o es más bien un Hans el Listo 
informático que responde a señales superficiales encerradas en los datos? 
Esta duda es hoy objeto de acalorados debates en el mundo de la IA, con el 
agravante de que los investigadores de la IA no están necesariamente de 
acuerdo sobre la definición de «verdadera comprensión». 

Por un lado, las redes neuronales profundas, entrenadas mediante 
aprendizaje supervisado, funcionan extraordinariamente bien (aunque 
todavía lejos de la perfección) en muchos problemas de visión por 
ordenador y en otros campos como el reconocimiento del habla y la 
traducción de idiomas. Estas redes, gracias a sus impresionantes 
capacidades, están saliendo rápidamente del mundo de la investigación para 
emplearse en aplicaciones del mundo real como la búsqueda en internet, los 
coches autónomos, el reconocimiento facial, los asistentes virtuales y los 
sistemas de recomendación, y cada vez resulta más difícil imaginar la vida 
sin estas herramientas de IA. Por otro lado, es engañoso decir que las redes 
profundas «aprenden solas» o que su entrenamiento es «similar al 
aprendizaje humano». Además de reconocer el éxito de estas redes, hay que 
matizar que pueden fallar de forma inesperada debido al sobreajuste a sus 
datos de entrenamiento, los efectos de cola larga y la vulnerabilidad a la 
piratería informática. Además, los motivos de las redes neuronales 


profundas a la hora de tomar decisiones son muchas veces difíciles de 
entender, por lo que es difícil predecir y solucionar los fallos. Los 
investigadores trabajan sin cesar para que las redes neuronales profundas 
sean más fiables y transparentes, pero sigue habiendo una pregunta sin 
respuesta: si estos sistemas carecen de una comprensión similar a la 
humana, ¿es inevitable que sean frágiles, poco fiables y vulnerables a los 
ataques? ¿Y cómo debe influir eso en nuestras decisiones sobre la 
utilización de sistemas de IA en el mundo real? El próximo capítulo 
examina algunas de las formidables dificultades que entraña intentar 
encontrar el equilibrio entre los beneficios de la IA y los riesgos de su falta 
de fiabilidad y su uso indebido. 
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Sobre una IA 
ética y de confianza 


magine que va en un coche autónomo, a altas horas de la noche, después 
de la fiesta de Navidad de la oficina. Está oscuro y nevando. «Coche, 
llévame a casa», dice, cansado y un poco bebido. Se recuesta en el asiento y 
da las gracias por poder cerrar los ojos mientras el coche arranca y se 
incorpora al tráfico. 

Estupendo, pero ¿hasta qué punto se puede sentir seguro? La eficacia de 
los coches autónomos depende enormemente del aprendizaje automático 
(en especial del aprendizaje profundo), sobre todo en relación con los 
componentes de visión por ordenador y toma de decisiones. ¿Cómo 
podemos saber si estos coches han aprendido todo lo que necesitan saber? 

Esta es la pregunta crucial para la industria de los coches autónomos. Los 
expertos tienen opiniones contradictorias sobre cuánto tiempo tardarán los 
vehículos autónomos en desempeñar un papel importante en nuestra vida 
cotidiana, con predicciones que oscilan (en el momento de escribir esto) 
entre unos cuantos años y muchas décadas. Los coches autónomos pueden 
mejorar de forma increíble nuestra vida. Los vehículos automatizados 
pueden reducir sustancialmente los millones de muertos y heridos anuales 
por accidentes de tráfico, muchos de ellos causados por conductores ebrios 
o distraídos. Además, los vehículos autónomos permitirían que los 


pasajeros fueran productivos en lugar de estar inactivos durante el trayecto 
al trabajo. Asimismo, estos vehículos tienen el potencial de ser más 
eficientes energéticamente que los coches conducidos por humanos, y serán 
una bendición para las personas ciegas o discapacitadas que no pueden 
conducir. Pero todo esto solo se materializará si los humanos estamos 
dispuestos a poner nuestra vida en manos de estos vehículos. 

El aprendizaje automático se está utilizando para tomar decisiones que 
afectan a la vida de los seres humanos en muchos ámbitos. ¿Qué garantías 
tenemos de que las máquinas que crean las noticias, diagnostican las 
enfermedades, evalúan nuestras solicitudes de préstamo o —Dios no lo 
quiera— recomiendan que nos condenen a prisión han aprendido lo 
suficiente como para tomar decisiones fiables? 

Se trata de preguntas incómodas no solo para los investigadores de IA, 
sino también para la sociedad en su conjunto, que tendrá que sopesar tanto 
los múltiples usos positivos de la IA hoy y en el futuro como las 
preocupaciones acerca de su fiabilidad y su uso indebido. 


La IA beneficiosa 


Cuando reflexionamos sobre el papel de la IA en nuestra sociedad, quizá es 
fácil pensar solo en los aspectos negativos. Sin embargo, es esencial 
recordar que los sistemas de IA ya benefician mucho a la sociedad y tienen 
posibilidades de hacerlo aún más. La tecnología de IA actual es 
fundamental para servicios que utilizamos todo el tiempo, a veces sin saber 
que esta interviene, como la transcripción de voz, la navegación y la 
planificación de trayectos por GPS, los filtros de spam de correo 
electrónico, la traducción de idiomas, las alertas de fraude con tarjetas de 
crédito, las recomendaciones de libros y música, la protección contra los 
virus informáticos y la optimización del consumo de energía en los 
edificios. 


Si usted es fotógrafo, cineasta, artista o músico es probable que utilice 
sistemas de IA que le facilitan sus proyectos creativos, como los programas 
que ayudan a los fotógrafos a editar sus fotos o a los compositores en la 
notación o los arreglos musicales. Un estudiante puede sacar partido de los 
«sistemas de tutoría inteligente» que se adaptan a su estilo de aprendizaje. 
Un científico seguramente habrá utilizado alguna de las muchas 
herramientas de IA disponibles que facilitan el análisis de datos. Una 
persona ciega o con algún tipo de discapacidad visual puede utilizar 
aplicaciones de visión por ordenador para teléfonos móviles que leen texto 
manuscrito o impreso (por ejemplo, los textos de los carteles, los menús de 
restaurante o el dinero). Alguien con problemas de audición dispone ahora 
de subtítulos muy exactos en los vídeos de YouTube y, en algunos casos, de 
transcripciones de voz en tiempo real durante una conferencia. Estos no son 
más que unos cuantos ejemplos de las mejoras que las actuales herramientas 
de IA están introduciendo en la vida de las personas. Hay muchas otras 
tecnologías de IA que todavía están en fase de investigación, pero a punto 
de generalizarse. 

En un futuro próximo, las aplicaciones de la IA probablemente se 
generalizarán en la atención sanitaria. Los sistemas de IA ayudarán a los 
médicos a diagnosticar enfermedades y sugerir tratamientos, a descubrir 
nuevos fármacos y a controlar la salud y la seguridad de los ancianos en su 
hogar. La creación de modelos científicos y el análisis de datos se basarán 
cada vez más en herramientas de IA; por ejemplo, para mejorar los modelos 
de cambio climático, crecimiento y cambio demográfico, ciencias 
medioambientales y de la alimentación y otros problemas importantes que 
afrontará la sociedad durante el próximo siglo. Para Demis Hassabis, 
cofundador del grupo DeepMind de Google, este es el posible beneficio 
más importante de la IA: 

Puede que tengamos que hacernos a la idea de que, incluso aunque los seres humanos más 


inteligentes del planeta estén trabajando en estos problemas, estos [problemas] son quizá tan 
complejos que es difícil que a las personas y los expertos científicos, de forma individual, les 


dé tiempo en la vida para innovar y avanzar... En mi opinión, vamos a necesitar ayuda, y creo 
que la TA es la solución.[153] 


Todos hemos oído decir que en el futuro la inteligencia artificial se hará 
cargo de los trabajos que los humanos detestan: trabajos mal pagados, 
aburridos, agotadores, degradantes, explotadores o directamente peligrosos. 
Si es así, podría ser una verdadera bendición para el bienestar humano. 
(Más adelante hablaré de la otra cara de la moneda: que la inteligencia 
artificial elimine demasiados puestos de trabajo humanos). Los robots ya se 
utilizan mucho en las fábricas para tareas no cualificadas y repetitivas, 
aunque hay muchos trabajos de este tipo que aún superan las aptitudes de 
los robots actuales. Pero, a medida que avance la IA, la automatización 
podrá hacerse cada vez más cargo de estos trabajos. Entre los ejemplos de 
futuras aplicaciones de la IA en el lugar de trabajo están los camiones y 
taxis autónomos y el uso de robots para la recolección de frutas, la 
extinción de incendios, la retirada de minas terrestres y la limpieza del 
medio ambiente. Además, los robots tendrán con toda probabilidad un papel 
aún mayor que el actual en la exploración planetaria y espacial. 

¿Será verdaderamente beneficioso para la sociedad que los sistemas de 
IA se hagan cargo de esos trabajos? La historia de la tecnología nos puede 
ayudar a poner las cosas en perspectiva. Veamos algunos ejemplos de 
puestos de trabajo que ocupaban los humanos pero que la tecnología 
automatizó hace tiempo, al menos en los países desarrollados: lavadora de 
ropa; conductor de rickshaw (bicitaxi); ascensorista; punkawallah (en la 
India, un criado que solo tenía la función de manejar un ventilador manual 
para enfriar la habitación, antes de que existieran los ventiladores 
eléctricos); calculadora (una persona, normalmente mujer, que hacía 
tediosos cálculos a mano, sobre todo durante la Segunda Guerra Mundial). 
Casi todo el mundo estará de acuerdo en que en esos casos sustituir a los 
humanos por máquinas mejoró la vida en general. Se podría decir que la IA 
actual no hace más que prolongar esa misma trayectoria de progreso: 


mejorar la vida de los humanos automatizando cada vez más los trabajos 
necesarios que nadie quiere hacer. 


El gran dilema sobre las contrapartidas de la Al 


El investigador de IA Andrew Ng ha proclamado con optimismo: «La IA es 
la nueva electricidad». Ng explica, además: «Así como la electricidad 
transformó casi todo hace cien años, hoy me cuesta imaginar un sector que 
la IA no vaya a transformar en los próximos años».[154] Es una analogía 
atractiva: la idea de que pronto la IA será tan necesaria —y tan invisible— 
en nuestros dispositivos electrónicos como la propia electricidad. Sin 
embargo, una diferencia importante es que las bases científicas de la 
electricidad se conocían bien ya antes de que empezara su comercialización. 
Sabemos predecir cómo se va a comportar la electricidad. Eso no pasa con 
muchos de los sistemas de IA actuales. 

Esto nos lleva a lo que podríamos llamar el gran dilema sobre las 
contrapartidas de la IA. ¿Debemos aceptar las capacidades de los sistemas 
de IA, que pueden mejorar nuestras vidas e incluso ayudar a salvarlas, y 
permitir que se empleen cada vez más? ¿O tenemos que ser más cautos, 
dados los errores impredecibles, la susceptibilidad a los sesgos, la 
vulnerabilidad a los ataques informáticos y la falta de transparencia de las 
decisiones que encontramos en la IA actual? ¿Hasta qué punto debe haber 
siempre humanos al tanto de todo en las distintas aplicaciones de la IA? 
¿Qué debemos exigir a un sistema de IA para confiar en que es capaz de 
funcionar de forma autónoma? Estas cuestiones siguen siendo objeto de 
acalorados debates, al tiempo que la IA se extiende cada vez más y se nos 
asegura que las aplicaciones más prometedoras (por ejemplo, los coches 
autónomos) están a la vuelta de la esquina. 

La falta de consenso sobre estas cuestiones quedó patente en un estudio 
reciente del Pew Research Center.[155 En 2018, los analistas de Pew 
hicieron una encuesta entre casi mil «pioneros tecnológicos, innovadores, 


desarrolladores, dirigentes empresariales y políticos, investigadores y 
activistas», a los que pidieron que respondieran a estas preguntas: 
De aquí a 2030, ¿cree que lo más probable es que los avances de la IA y los sistemas 
tecnológicos relacionados mejoren y refuercen las capacidades humanas? Es decir, ¿la mayoría 
de las personas estarán la mayor parte del tiempo mejor que ahora? ¿O es más probable que 
los avances de la IA y los sistemas tecnológicos relacionados reduzcan la autonomía y la 


capacidad de acción de los humanos hasta el punto de que la mayoría de las personas no 
estarán mejor que hoy? 


Hubo división de respuestas. El 63 por ciento predijo que los avances de la 
[A crearían una situación mejor para los humanos de aquí a 2030, mientras 
que el 37 por ciento se mostró en desacuerdo. Las respuestas oscilaban 
entre la opinión de que la IA «puede eliminar prácticamente toda la pobreza 
mundial, reducir enormemente las enfermedades y proporcionar mejor 
educación a casi todos los habitantes del planeta» hasta predicciones de un 
futuro apocalíptico: legiones de puestos de trabajo anulados por la 
automatización, merma de la privacidad y los derechos civiles por las 
funciones de vigilancia de la IA, armas autónomas amorales, decisiones 
incontroladas de programas informáticos opacos y poco fiables, 
intensificación de los prejuicios raciales y de género, manipulación de los 
medios de comunicación, aumento de la ciberdelincuencia y lo que uno de 
los encuestados denominó la «auténtica irrelevancia existencial» para los 
humanos. 

La inteligencia artificial presenta un enrevesado abanico de dudas éticas; 
los debates relacionados con la ética de la IA y los macrodatos han llenado 
ya varios libros.[156] Para ilustrar la complejidad de estas cuestiones, voy a 
profundizar en un ejemplo que está siendo objeto de mucha atención en los 
últimos tiempos: el reconocimiento facial automático. 


La ética del reconocimiento facial 


El reconocimiento facial es la tarea de etiquetar un rostro en una imagen o 
un vídeo (o una retransmisión por directo) con un nombre. Facebook, por 
ejemplo, aplica un algoritmo de reconocimiento facial a todas las fotos que 
se suben a su web para identificar las caras de la foto y emparejarlas con 
usuarios conocidos (al menos los usuarios que no han desactivado esta 
función).[157] Cuando una persona está en Facebook y alguien publica una 
foto que incluye su cara, el sistema puede preguntarle si quiere 
«etiquetarse» en la foto. La precisión del algoritmo de reconocimiento 
facial de Facebook puede ser al mismo tiempo admirable y escalofriante. 
No es extraño que esa precisión se deba al uso de redes neuronales 
convolucionales profundas. Muchas veces, el programa puede identificar un 
rostro en la foto no solo cuando está en primer plano, sino incluso cuando 
esa persona está en medio de una multitud. 

La tecnología de reconocimiento facial tiene muchas posibles ventajas, 
como ayudar a la gente a buscar entre sus colecciones de fotos, hacer 
posible a las personas con problemas de visión identificar a las personas 
con las que se encuentran, localizar a niños desaparecidos o delincuentes 
fugitivos escaneando fotos y vídeos para identificarlos, y detectar robos de 
identidad. Sin embargo, también es fácil imaginar aplicaciones que resulten 
ofensivas O amenazadoras para muchas personas. Amazon, por ejemplo, ha 
puesto a la venta su sistema de reconocimiento facial (con el peculiar y 
distópico nombre de Rekognition) dirigido a departamentos de policía, que, 
por ejemplo, pueden comparar grabaciones de cámaras de seguridad con 
una base de datos de delincuentes conocidos o sospechosos probables. 

Un problema evidente es la privacidad. Incluso aunque una persona no 
esté en Facebook (ni en cualquier otra plataforma de redes sociales con 
reconocimiento facial), se pueden etiquetar las fotos en las que aparece para 
reconocerlas después de forma automática y sin su permiso. Pensemos en 
FaceFirst, una empresa que ofrece servicios de pago de reconocimiento 
facial. La revista New Scientist informa de que «Face First [...] está 


poniendo en marcha un sistema para comercios minoristas que, según 
asegura, “impulsará las ventas al reconocer a los clientes más valorados 
cada vez que compren” y enviará “alertas cuando personas conocidas por 
ser conflictivas entren en cualquiera de sus establecimientos”».[158] Muchas 
otras empresas ofrecen servicios similares. 

La pérdida de privacidad no es el único peligro. Una preocupación aún 
mayor es la fiabilidad: los sistemas de reconocimiento facial pueden 
cometer errores. Si identifican equivocadamente la cara de una persona 
como si fuera de otra, pueden prohibirle el acceso a una tienda o a un vuelo, 
o acusarle sin razón de un delito. Además, se ha demostrado que los 
sistemas actuales de reconocimiento facial tienen un porcentaje de error 
considerablemente mayor con las personas de color que en las blancas. La 
Unión Estadounidense de Libertades Civiles (ACLU, por sus siglas en 
inglés), que, en su defensa de los derechos civiles, se opone enérgicamente 
a que las fuerzas del orden utilicen la tecnología de reconocimiento facial, 
probó el sistema Rekognition de Amazon (con su configuración 
predeterminada) con los 535 miembros del Congreso de Estados Unidos, 
comparando una foto de cada uno de ellos con una base de datos de 
personas que habían sido detenidas por cargos penales. Descubrieron que el 
sistema había emparejado equivocadamente a 28 de los 535 congresistas 
con personas de la base de datos de delincuentes. El 21 por ciento de los 
errores eran en fotos de representantes afroamericanos (que solo 
constituyen el 9 por ciento del Congreso).[159] 

En vista de los resultados de las pruebas de la ACLU y de otros estudios 
que demuestran la falta de fiabilidad y los sesgos del reconocimiento facial, 
varias empresas de alta tecnología han anunciado que se oponen al uso del 
reconocimiento facial por parte de las fuerzas del orden y en tareas de 
vigilancia. Por ejemplo, Brian Brackeen, director ejecutivo de la empresa de 
reconocimiento facial Kairos, escribió lo siguiente en un artículo muy 
difundido: 


Las tecnologías de reconocimiento facial, utilizadas en la identificación de sospechosos, 
perjudican a las personas de color. Negarlo sería mentir [...]. Mi empresa y yo hemos llegado 
a la conclusión de que el uso del reconocimiento facial comercial para fines policiales o en 
vigilancia gubernamental de cualquier tipo es malo y abre la puerta a graves faltas de ética por 
parte de personas moralmente corruptas [...]. Nos merecemos un mundo en el que no 
permitamos a los Gobiernos clasificar, seguir la pista y controlar a los ciudadanos.[160] 


En una entrada del blog de la web de su empresa, el presidente y director 
jurídico de Microsoft, Brad Smith, pidió al Congreso que regulara el 
reconocimiento facial: 
La tecnología de reconocimiento facial plantea dudas que afectan directamente a la protección 
de derechos humanos fundamentales como la privacidad y la libertad de expresión. Estas 
cuestiones aumentan la responsabilidad de las empresas tecnológicas que crean estos 
productos. En nuestra opinión, también exigen una regulación gubernamental prudente y el 


desarrollo de normas que indiquen qué usos son aceptables. Con el reconocimiento facial, 
tanto el sector público como el privado deben dar un paso al frente y actuar.[161] 


Google siguió su ejemplo y anunció que no ofrecería servicios de 
reconocimiento facial en general a través de su plataforma de IA en la nube 
hasta que la empresa pudiera «garantizar que su uso coincide con nuestros 
principios y valores, y evita malos usos y resultados perjudiciales».[162] 

La reacción de estas empresas invita al optimismo, pero pone sobre la 
mesa otra cuestión fastidiosa: ¿hasta qué punto deben regularse la 
investigación y el desarrollo de la IA, y quién debe hacerlo? 


La regulación de la IA 


Dados los riesgos de las tecnologías de IA, muchos profesionales del sector, 
entre los que me incluyo, piensan que debe haber algún tipo de regulación. 
Pero la regulación no debe dejarse únicamente en manos de los 
investigadores y las empresas de IA. Los problemas relacionados con la IA 
—la fiabilidad, la necesidad de explicaciones, el sesgo, la vulnerabilidad a 
los ataques y los aspectos morales— son cuestiones no solo técnicas, sino 
también sociales y políticas. Por tanto, es esencial que en el debate 


intervengan personas con diferentes perspectivas y procedencias. Dejar la 
regulación en manos de los profesionales de la IA sería tan imprudente 
como dejarla exclusivamente en manos de los organismos gubernamentales. 

Como ejemplo de lo compleja que es la elaboración de este tipo de 
reglamentos, en 2018 el Parlamento Europeo promulgó un reglamento 
sobre IA que algunos han denominado el «derecho a la explicación».[163] 
Este reglamento exige que en caso de «decisiones automatizadas», haya 
«información de peso sobre la lógica involucrada» en cualquier decisión 
que afecte a un ciudadano de la UE. Esta información debe comunicarse 
«de forma concisa, transparente, inteligible y fácilmente accesible, con un 
lenguaje claro y sencillo».[164] La frase abre la puerta a la interpretación. 
¿Qué es «información de peso» o «la lógica involucrada»? ¿Prohíbe esta 
normativa el uso de métodos de aprendizaje profundo difíciles de explicar 
para tomar decisiones que afectan a las personas (como los préstamos y el 
reconocimiento facial)? No hay duda de que estas incertidumbres 
garantizarán un empleo remunerado para los políticos y los abogados 
durante mucho tiempo. 

Creo que la regulación de la IA debe seguir el modelo de la de otras 
tecnologías, en particular las de las ciencias biológicas y médicas, como la 
ingeniería genética. En esos campos, las normas —por ejemplo, las 
garantías de calidad y el análisis de riesgos y beneficios de las tecnologías 
— se elaboran mediante la cooperación entre organismos gubernamentales, 
empresas, organizaciones sin ánimo de lucro y universidades. Además, ya 
existen campos consolidados de la bioética y la ética médica que influyen 
de forma considerable en las decisiones sobre el desarrollo y la aplicación 
de las tecnologías. La investigación de la IA y sus aplicaciones necesitan 
sobre todo una infraestructura reguladora y ética muy meditada. 

Esta infraestructura está empezando a formarse. En Estados Unidos, los 
Gobiernos estatales están empezando a estudiar la creación de normativas, 
entre ellas sobre el reconocimiento facial y los vehículos autónomos. Ahora 


bien, en general, se ha dejado que las universidades y las empresas que 
crean sistemas de IA se autorregulen. 

Para llenar este vacío han surgido varios grupos de reflexión sin ánimo de 
lucro, con frecuencia financiados por ricos empresarios tecnológicos 
preocupados por la IA. Estas organizaciones —con nombres como Future 
of Humanity Institute, Future of Life Institute y Centre for the Study of 
Existential Risk— organizan seminarios, patrocinan investigaciones y 
elaboran materiales educativos y sugerencias políticas sobre los usos 
seguros y éticos de la IA. Una organización marco llamada Partnership on 
AI ha intentado reunir a estos grupos para «ser una plataforma abierta de 
debate y diálogo sobre la IA y su influencia en las personas y la sociedad». 
[165] 

Uno de los escollos es que no hay consenso en este campo sobre cuáles 
deben ser las prioridades a la hora de desarrollar la regulación y las normas 
éticas. ¿Debemos centrarnos ante todo en unos algoritmos que puedan 
explicar su razonamiento? ¿En la privacidad de los datos? ¿En la solidez de 
los sistemas de IA frente a los ataques maliciosos? ¿En los sesgos de los 
sistemas de IA? ¿En el posible «riesgo existencial» que representa una IA 
superinteligente? En mi opinión, se ha prestado demasiada atención a los 
riesgos de la IA superinteligente y muy poca tanto a la falta de fiabilidad y 
transparencia del aprendizaje profundo como a su vulnerabilidad a los 
ataques. Hablaré más sobre la idea de superinteligencia en el último 
capítulo. 


Máquinas morales 


Hasta ahora, mi análisis se ha centrado en las dudas éticas sobre cómo 
utilizan los humanos la IA. Pero hay otra cuestión importante: ¿podrían las 
máquinas tener su propio sentido moral, tanto como para que les 
permitamos tomar decisiones éticas por su cuenta, sin que los humanos 
tengan que supervisarlas? Si vamos a dar autonomía de decisión a los 


sistemas de reconocimiento facial, a los coches autónomos, a los robots que 
cuidan ancianos o incluso a los robots militares, ¿no deberíamos darles la 
misma capacidad de abordar cuestiones éticas y morales que tenemos los 
humanos? 

El «sentido moral de las máquinas» es objeto de reflexión desde hace 
tanto tiempo como la IA.[166] Probablemente, el debate más conocido sobre 
la ética de las máquinas es el de los relatos de ciencia ficción de Isaac 
Asimov, que proponía las tres «leyes fundamentales de la robótica»: 

1. Un robot no puede dañar a un ser humano ni, por inacción, permitir que un ser humano sufra 

daños. 

2. Un robot debe obedecer las órdenes que le den los seres humanos, excepto cuando tales 

órdenes entren en conflicto con la Primera Ley. 


3. Un robot debe proteger su propia existencia siempre que dicha protección no entre en 
conflicto con la Primera o la Segunda Ley.[167] 


Estas leyes son famosas, pero, en realidad, el propósito de Asimov era 
demostrar que una serie de reglas de este tipo no tenía más remedio que 
fracasar. «Círculo vicioso», el relato de 1942 en el que Asimov presentó por 
primera vez estas leyes, plantea una situación en la que un robot, por 
obedecer la segunda ley, se acerca a una sustancia peligrosa, momento en el 
que entra en vigor la tercera ley, así que el robot se aleja, momento en el 
que vuelve a entrar en vigor la segunda ley, de modo que el robot queda 
atrapado en un bucle sin fin, lo que tiene consecuencias casi desastrosas 
para los amos humanos del robot. Los relatos de Asimov solían fijarse en 
las consecuencias imprevistas de programar reglas éticas en los robots. Y 
era profético: como hemos visto, el problema de las reglas incompletas y las 
consecuencias imprevistas ha sido un estorbo para todas las formas de 
enfocar la inteligencia de la IA basada en reglas; lo mismo pasa con el 
razonamiento moral. 

El escritor de ciencia ficción Arthur C. Clarke utilizó un recurso 
argumental similar en su libro de 1968 2001, una odisea espacial.¡168] El 
ordenador con inteligencia artificial HAL está programado para decir 


siempre la verdad a los humanos, pero, al mismo tiempo, también para 
ocultar a los astronautas humanos el propósito real de su misión espacial. 
HAL, a diferencia del robot despistado de Asimov, sufre las consecuencias 
psicológicas de esta disonancia cognitiva: «Era [...] consciente del conflicto 
que estaba destruyendo poco a poco su integridad: el conflicto entre la 
verdad y la ocultación de la verdad».[169] El resultado es una «neurosis» 
informática que convierte a HAL en asesino. Reflexionando sobre la 
moralidad de las máquinas en la vida real, el matemático Norbert Wiener 
señaló ya en 1960 que «más nos vale estar muy seguros de que el propósito 
que se introduce en la máquina es el propósito que verdaderamente 
deseamos».[170] 

El comentario de Wiener capta lo que se denomina el problema de la 
alineación de valores en la IA: la necesidad de que los programadores de IA 
puedan garantizar que los valores de sus sistemas coinciden con los de los 
humanos. ¿Pero cuáles son los valores humanos? ¿Tiene sentido siquiera 
suponer que existen unos valores universales que comparte toda la 
sociedad? 

Bienvenidos a Filosofía Moral I. Empezaremos con el experimento 
teórico favorito de todo estudiante de Filosofía Moral, el dilema del tranvía. 
Una persona conduce un tranvía que va a toda velocidad y de pronto ve 
delante a cinco trabajadores en plena vía. Pisa el freno, pero se da cuenta de 
que no funciona. Por suerte, hay un ramal que sale hacia la derecha. Si lleva 
el tranvía hacia el ramal, no atropellará a los cinco trabajadores. Pero en 
medio de esa otra vía hay otro trabajador, solo uno. Si no se desvía, el 
tranvía atropellará a los cinco trabajadores y los matará a todos. Si se va 
hacia la derecha, matará al trabajador que está solo. ¿Qué nos dicta la 
moral? 

El dilema del tranvía es un elemento omnipresente en los cursos 
universitarios de ética desde hace un siglo. La mayoría de la gente responde 
que, desde el punto de vista moral, es preferible que el conductor se desvíe 


a la otra vía, mate al trabajador que está solo y salve al grupo de los cinco. 
Pero los filósofos han descubierto que un enunciado distinto del mismo 
dilema puede llevar a la gente a responder todo lo contrario.[171] Parece que 
los razonamientos humanos sobre dilemas morales son muy sensibles a 
cómo se los presentan. 

El dilema del tranvía ha reaparecido en los últimos tiempos dentro de las 
informaciones mediáticas sobre los vehículos autónomos,[172] y la cuestión 
de cómo debe programarse un vehículo autónomo para afrontar este tipo de 
problemas se ha convertido en un tema de conversación fundamental de los 
debates sobre la ética de la IA. Muchos teóricos de la ética de la IA 
destacan que el dilema del tranvía propiamente dicho, en el que el 
conductor no tiene más que dos opciones horribles, es una situación muy 
forzada que ningún conductor del mundo real se encontrará jamás. Pero el 
dilema se ha convertido en una especie de símbolo que nos obliga a 
preguntarnos cómo debemos programar los coches autónomos para que 
tomen decisiones morales por su cuenta. 

En 2016, tres investigadores publicaron los resultados de unas encuestas 
llevadas a cabo entre varios centenares de personas a las que se les 
plantearon situaciones similares a las del dilema del tranvía en las que 
estaban implicados coches autónomos, y se les preguntó su opinión sobre 
diferentes acciones desde el punto de vista moral. En una de las encuestas, 
el 76 por ciento de los participantes respondió que sería moralmente 
preferible para un coche autónomo sacrificar a un pasajero que matar a diez 
peatones. Pero cuando se les preguntó si comprarían un coche autónomo 
programado para sacrificar a sus pasajeros si eso suponía salvar a un 
número mucho mayor de peatones, la inmensa mayoría de los encuestados 
respondieron que ellos no se lo comprarían.[173] Según los autores, 
«descubrimos que los participantes en seis estudios de Amazon Mechanical 
Turk aprobaban los AV [vehículos autónomos] utilitaristas (es decir, los AV 
que sacrificasen a sus pasajeros por un bien mayor) y les gustaría que otros 


los compraran, pero ellos preferirían viajar en AV que protegieran a sus 
pasajeros a toda costa». En su comentario sobre este estudio, el psicólogo 
Joshua Greene señaló: «Antes de poder introducir nuestros valores en las 
máquinas, debemos aprender a hacer que nuestros valores sean claros y 
coherentes».[174] Algo que parece más difícil de lo que tal vez pensábamos. 

Algunos investigadores de la ética de la IA han sugerido que dejemos de 
intentar programar directamente reglas morales para las máquinas y que, en 
su lugar, hagamos que las máquinas aprendan valores morales por sí 
mismas observando el comportamiento humano.[175] Pero ese enfoque 
autodidacta hereda todos los problemas del aprendizaje automático que he 
descrito en el capítulo anterior. 

En mi opinión, los avances en la capacidad de dotar a los ordenadores de 
inteligencia moral no pueden separarse de los avances en otros tipos de 
inteligencia: el objetivo verdaderamente difícil es crear máquinas capaces 
de comprender verdaderamente las situaciones a las que se enfrentan. Como 
demuestran los relatos de Isaac Asimov, no podemos fiarnos de que un 
robot vaya a obedecer la orden de evitar hacer daño a un humano si no 
puede entender el concepto de daño en diferentes situaciones. Para razonar 
sobre moral hace falta identificar las relaciones causa-efecto, imaginar 
diferentes futuros posibles, tener cierta idea de las creencias y los 
propósitos de los demás y predecir los resultados probables de nuestras 
acciones en cualquier situación en la que nos encontremos. En otras 
palabras, un razonamiento moral digno de confianza necesita antes el 
sentido común general, que, como hemos visto, falta incluso en los mejores 
sistemas de IA actuales. 

Hasta ahora hemos visto que las redes neuronales profundas, entrenadas 
con enormes conjuntos de datos, pueden rivalizar con las capacidades 
visuales de los humanos en determinadas tareas. También hemos visto 
algunos puntos débiles de esas redes, como su necesidad de cantidades 
ingentes de datos etiquetados por humanos y su propensión a fallar de 


formas muy poco humanas. ¿Cómo podemos crear un sistema de IA que 
aprenda de verdad por sí solo, que sea más fiable porque, como los 
humanos, sea capaz de razonar sobre su situación actual y planificar el 
futuro? En la siguiente parte del libro voy a describir de qué forma los 
investigadores de IA están utilizando juegos como el ajedrez, el go e 
incluso los videojuegos de Atari como «microcosmos» para desarrollar 
máquinas con capacidades de aprendizaje y razonamiento más parecidas a 
las humanas, y voy a evaluar de qué manera esas máquinas jugadoras 
sobrehumanas podrían transferir sus aptitudes al mundo real. 
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Recompensas 
para los robots 


Dia la periodista Amy Sutherland investigaba para un libro sobre 
adiestradores de animales exóticos, se enteró de que su método principal es 
absurdamente sencillo: «recompensar el comportamiento que me gusta e 
ignorar el que no». Y como escribió en la columna «Modern Love» de The 
New York Times: «Al final se me ocurrió que las mismas técnicas podían 
funcionar con esa especie cabezota pero adorable que es el marido 
estadounidense». Sutherland contó que, después de años de quejas inútiles, 
sarcasmo y resentimiento, utilizó ese sencillo método para entrenar 
subrepticiamente a su inconsciente marido con el fin de que recogiera los 
Calcetines, encontrara las llaves del coche, llegara puntual a los restaurantes 
y se afeitara con más regularidad.[176] 

Esta técnica clásica de adiestramiento, conocida en psicología como 
condicionamiento instrumental, se utiliza desde hace siglos con animales y 
seres humanos. El condicionamiento instrumental inspiró un importante 
método de aprendizaje automático llamado aprendizaje por refuerzo, que es 
distinto del método de aprendizaje supervisado que he descrito en capítulos 
anteriores: en su forma más pura, el aprendizaje por refuerzo no necesita 
ejemplos etiquetados de entrenamiento. En lugar de ello, un agente —el 
programa de aprendizaje— lleva a cabo acciones en un entorno 


(normalmente una simulación por ordenador) y de vez en cuando recibe 
recompensas de ese entorno. Estas recompensas intermitentes son las únicas 
valoraciones que el agente utiliza para aprender. En el caso del marido de 
Amy Sutherland, las recompensas eran las sonrisas, los besos y las palabras 
de elogio. Un programa informático no reacciona ante un beso o un 
entusiasta «eres el mejor», pero se puede hacer que reaccione ante el 
equivalente informático de un «gracias»; por ejemplo, más números 
positivos añadidos a su memoria. 

Aunque el aprendizaje por refuerzo es una de las herramientas utilizadas 
con la IA desde hace décadas, durante mucho tiempo quedó eclipsado por 
las redes neuronales y otros métodos de aprendizaje supervisado. La 
situación cambió en 2016, cuando el aprendizaje por refuerzo contribuyó de 
manera fundamental a un avance asombroso y trascendental de la IA: un 
programa que aprendió a vencer a los mejores campeones humanos del 
complejo juego del go. Para explicar ese programa y otros éxitos recientes 
del aprendizaje por refuerzo, antes tengo que mostrar un ejemplo sencillo 
para ilustrar cómo funciona el aprendizaje por refuerzo. 


Cómo entrenar a su perro robot 


Como ejemplo ilustrativo, veamos el divertido juego del fútbol robótico, en 
el que unos humanos (normalmente estudiantes universitarios) programan 
robots para que jueguen una versión simplificada del fútbol en un «campo» 
del tamaño de una habitación. A veces, los jugadores son simpáticos robots 
Aibo con forma de perro, como el de la figura 22. Un robot Aibo (fabricado 
por Sony) tiene una Cámara para captar imágenes, un ordenador interno 
programable y un conjunto de sensores y motores que le permiten andar, dar 
patadas, dar cabezazos e incluso mover la cola de plástico. 

Imaginemos que queremos enseñar a nuestro perro robot la habilidad 
básica del fútbol: que cuando tenga el balón delante, ande hacia él y le dé 
una patada. La estrategia tradicional de la IA consistiría en programar el 


robot con las siguientes reglas: da un paso hacia el balón; repítelo hasta que 
una de las patas toque el balón; entonces da una patada al balón con esa 
pata. Por supuesto, las descripciones abreviadas como «da un paso hacia el 
balón», «hasta que una de las patas toque el balón» y «da una patada al 
balón» deben traducirse cuidadosamente en el funcionamiento detallado de 
los sensores y motores integrados en el Aibo. 


à 
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Un perro robot Sony Aibo, a punto de dar una patada a un balón de fútbol robótico. 


Estas reglas explícitas pueden bastar para una tarea tan sencilla como 
esta. Pero cuanto más «inteligente» queramos que sea nuestro robot, más 
difícil será concretar manualmente las reglas de conducta. Y, por supuesto, 
es imposible diseñar un conjunto de reglas válido para todas las situaciones. 
¿Y si hay un gran charco entre el robot y el balón? ¿Y si hay un cono que 
impide ver al robot? ¿Y si hay una piedra que no deja que se mueva el 
balón? Como siempre, el mundo real está atiborrado de casos extremos 
difíciles de predecir. Lo que promete el aprendizaje por refuerzo es que el 


agente —en este caso, nuestro perro robot— puede aprender estrategias 
flexibles por sí solo, únicamente a través de hacer cosas y de recibir de vez 
en cuando recompensas (es decir, refuerzo), sin que los humanos tengan que 
escribir ninguna regla manualmente ni enseñar directamente al agente todas 
las circunstancias posibles. 

Llamaremos a nuestro perro robot Rosie, en recuerdo de mi robot 
favorito de la televisión, la irónica criada robótica de la clásica serie de 
dibujos animados The Jetsons (Los supersónicos).[177] Para facilitar las 
cosas, supongamos que Rosie viene programada de fábrica con la siguiente 
habilidad: si hay un balón de fútbol en su campo visual, es capaz de calcular 
el número de pasos que tendría que dar para llegar hasta él. Este número se 
llama «estado». En general, el estado de un agente en un momento dado es 
la percepción que este tiene de su situación actual. Rosie es el más simple 
de los agentes posibles, en el sentido de que su estado es un único número. 
Cuando digo que Rosie está «en» un determinado estado X, quiero decir 
que en ese momento calcula que está a X pasos del balón. 

Además de ser capaz de identificar su estado, Rosie tiene integradas tres 
acciones que puede llevar a cabo: dar un paso adelante, dar un paso atrás y 
dar una patada. (Si Rosie se sale del límite, está programada para retroceder 
de inmediato). Como corresponde al condicionamiento instrumental, vamos 
a dar a Rosie una recompensa solo cuando consiga dar una patada al balón. 
Que conste que Rosie no sabe de antemano qué estados o acciones merecen 
la recompensa, ni siquiera si hay recompensa. 

Dado que Rosie es un robot, su «recompensa» no es más que un número, 
por ejemplo diez, que se añade a su «memoria de recompensa». Podemos 
considerar que el número diez es el equivalente robótico de una golosina 
para perros. O quizá no. A diferencia de un perro de verdad, Rosie no tiene 
un deseo intrínseco de golosinas, de números positivos ni de nada. Como 
detallaré más adelante, en el aprendizaje por refuerzo, un algoritmo creado 
por humanos guía el proceso de aprendizaje de Rosie en respuesta a las 


recompensas; es decir, el algoritmo le dice a Rosie cómo debe aprender de 
sus experiencias. 

El aprendizaje por refuerzo consiste en hacer que Rosie lleve a cabo 
acciones en una serie de episodios de aprendizaje, cada uno de los cuales 
comprende cierto número de iteraciones. En cada iteración, Rosie determina 
su estado actual y elige una acción. Si Rosie recibe una recompensa, 
entonces aprende algo, como ilustro más adelante. Aquí dejaré que cada 
episodio dure hasta que Rosie consiga dar una patada al balón, momento en 
el que recibe la recompensa. Puede ser un proceso muy largo. Como con el 
adiestramiento de un perro de verdad, hay que tener paciencia. 

La figura 23 ilustra un episodio hipotético de aprendizaje. El episodio 
comienza con el entrenador (yo) colocando a Rosie y el balón en 
determinadas posiciones iniciales en el campo, con Rosie de frente al balón 
(figura 23A). Rosie determina su estado actual: a doce pasos del balón. 
Como Rosie no ha aprendido nada todavía, es una inocente tabula rasa y no 
sabe qué acción debe preferir, así que elige una al azar entre sus tres 
posibilidades: adelante, atrás, patada. Supongamos que elige dar un paso 
atrás. Nosotros, los humanos, podemos ver que es una acción equivocada, 
pero estamos dejando que Rosie descubra por sí sola cómo ejecutar esta 
tarea. 
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Figura 23. Un hipotético primer episodio de aprendizaje por refuerzo. 


En la segunda iteración (figura 23B), Rosie determina su nuevo estado: a 
trece pasos de distancia del balón. Después elige una nueva acción, otra vez 
de forma aleatoria: dar un paso adelante. En la tercera iteración (figura 
23C), Rosie determina su «nuevo» estado: a doce pasos del balón. Ha 
vuelto donde empezó, pero Rosie ni siquiera sabe que ya ha estado antes en 
ese estado. En la forma más pura de aprendizaje por refuerzo, el agente que 


está aprendiendo no recuerda sus estados anteriores. En general, recordar 
estados anteriores utiliza mucha memoria y no es necesario. 

En la iteración 3, Rosie —otra vez al azar— elige la acción dar una 
patada, pero, como está dando la patada en el aire, no obtiene recompensa. 
Todavía le falta aprender que la patada solo proporciona una recompensa si 
está junto al balón. 

Rosie sigue eligiendo acciones aleatorias, sin saber ninguna valoración, 
durante muchas iteraciones. Pero en algún momento, por ejemplo en la 
iteración número 351, Rosie se encuentra por pura casualidad junto al balón 
y elige dar una patada (figura 23D). Por fin obtiene una recompensa y la 
utiliza para aprender algo. 

¿Qué aprende Rosie? Aquí adoptamos la estrategia más sencilla de 
aprendizaje por refuerzo: al recibir una recompensa, Rosie solo aprende 
algo sobre el estado y la acción inmediatamente anteriores a la recompensa. 
En concreto, Rosie aprende que si se encuentra en ese estado (por ejemplo, 
a cero pasos del balón), llevar a cabo esa acción (por ejemplo, dar una 
patada) es una buena idea. Pero no aprende nada más. No aprende, por 
ejemplo, que si está a cero pasos del balón, dar un paso atrás sería una mala 
decisión. Al fin y al cabo, todavía no lo ha intentado. Por lo que sabe, a lo 
mejor dar un paso atrás en ese estado le proporcionaría una recompensa 
mucho mayor. Rosie tampoco aprende en este momento que si está a un 
paso, ir adelante sería una buena opción. Para eso tiene que esperar al 
próximo episodio. Aprender demasiado de una sola vez puede ser 
perjudicial; si a Rosie se le ocurre dar una patada al aire a dos pasos del 
balón, no queremos que aprenda que esta patada inútil, en realidad, es un 
paso necesario para obtener la recompensa. En los seres humanos, ese tipo 
de comportamiento podría considerarse una superstición, es decir, creer sin 
razón que una acción concreta puede ayudar a provocar un resultado bueno 
o malo. En el aprendizaje por refuerzo, la superstición es algo que hay que 
evitar cuidadosamente. 


Una noción crucial en el aprendizaje por refuerzo es la del valor de llevar 
a cabo una acción concreta en un estado determinado. El valor de la acción 
A en el estado E es un número que refleja la predicción actual del agente 
sobre cuánta recompensa acabará obteniendo si estando en el estado E, 
lleva a cabo la acción A y luego sigue ejecutando acciones de gran valor. 
Me explico. Si su estado actual es «con un bombón en la mano», una acción 
de gran valor sería llevarse la mano a la boca. Las siguientes acciones de 
gran valor serían abrir la boca, introducir el chocolate y masticarlo. La 
recompensa es la deliciosa sensación de comerse el bombón. Llevarse la 
mano a la boca no proporciona inmediatamente esta recompensa, pero es 
una acción que va bien encaminada, y si esa persona ha comido chocolate 
antes, puede predecir la intensidad de la recompensa que le espera. El 
objetivo del aprendizaje por refuerzo es que el agente aprenda valores que 
le ayuden a predecir las recompensas que se avecinan (suponiendo que el 
agente siga haciendo lo que debe después de la acción en cuestión).[178] 
Como veremos, para aprender los valores que tienen acciones concretas en 
un estado determinado suelen hacer falta muchos pasos de ensayo y error. 


Tabla Q: 


0 pasos de 1 paso de pèt 10 pasos de 
distancia distancia distancia 


Acción Paso adelante Paso adelante a Paso adelante 
Paso atrás Paso atrás Paso atrás 
Patada Patada Patada 


Figura 24. La tabla Q de Rosie tras su primer episodio de aprendizaje por refuerzo. 


Rosie registra los valores de sus acciones en una gran tabla en la 
memoria de su ordenador. Esta tabla, que aparece en la figura 24, enumera 
todos los estados posibles de Rosie (es decir, todas las distancias posibles a 
las que podría estar del balón, hasta el límite del campo), y para cada 


estado, las posibles acciones. Dado un estado, cada acción que pueda 
emprender en ese estado tiene un valor numérico; esos valores cambiarán 
—Yy serán predicciones más exactas de las futuras recompensas— a medida 
que Rosie siga aprendiendo. Esta tabla de estados, acciones y valores se 
denomina tabla Q. Y esta forma de aprendizaje por refuerzo se denomina a 
veces Q-learning (aprendizaje Q). Se utiliza la letra Q (de quality) porque la 
letra V (de valor) se empleó para otra cosa en el artículo original sobre el 
aprendizaje Q.[179] 

Al comenzar el entrenamiento de Rosie, inicio la tabla Q poniendo todos 
los valores a cero, para empezar con «página en blanco». Cuando Rosie 
recibe una recompensa por dar una patada al balón al final del episodio 1, el 
valor de la acción «dar una patada» cuando está en el estado «a cero pasos» 
se actualiza a diez, el valor de la recompensa. En el futuro, cuando Rosie 
esté en el estado «a cero pasos», podrá mirar la tabla Q, ver que «dar una 
patada» tiene el valor más alto —es decir, predice la recompensa más alta— 
y elegir esa acción en lugar de elegir al azar. Eso es lo que significa 
«aprender» aquí. 

El episodio 1 terminó con Rosie dando una patada al balón. Ahora 
pasamos al episodio 2 (figura 25), que comienza con Rosie y la pelota en 
nuevas posiciones (figura 25A). Igual que antes, en cada iteración Rosie 
determina su estado actual —al principio, a seis pasos de distancia— y elige 
una acción, para lo que mira su tabla Q. Ahora bien, a estas alturas, los 
valores de las acciones en su estado actual siguen siendo todos cero; todavía 
no hay ninguna información que le ayude a elegir entre ellas. Así que Rosie 
vuelve a elegir una acción de forma aleatoria: dar un paso atrás. Y vuelve a 
elegir atrás en la siguiente iteración (figura 25B). Al entrenamiento de 
nuestro perro robot le queda mucho por delante. 


Iteración 1 Acción elegida: 
Estado: 6 pasos paso atrás 


de distancia g n 
Seia e 
t 
=>" 


A 


Iteración 3 Acción elegida: 


Estado: 7 pasos, paso atrás 
de distancia eo 
`~ ~ $ E 
~ a O 
AD 


Iteración 877 
Estado: 1 paso de distancia 


Acción elegida: 
paso adelante 


Parte de la 
recompensa 
prevista es 


asignada a Iteración 878 


la accion Estado: 0 pasos de distancia 
anterior 


Figura 25. Segundo episodio de aprendizaje por refuerzo. 


Todo continúa como antes, hasta que las pruebas de ensayo y error al azar 
de Rosie la llevan a un paso de la pelota (figura 25C) y elige dar un paso 
adelante. De repente Rosie se encuentra con la pata junto a la pelota (figura 
25D) y ve que la tabla Q tiene información sobre este estado. En concreto, 
dice que su estado actual —a cero pasos del balón— tiene una acción —dar 
una patada— que, según se predice, desemboca en una recompensa de diez. 


Ahora puede utilizar esta información aprendida en el episodio anterior para 
elegir qué acción ejecuta, que es dar una patada. Pero aquí está la esencia 
del aprendizaje Q: ahora Rosie puede aprender algo sobre la acción (dar un 
paso adelante) que llevó a cabo en el estado inmediatamente anterior (a un 
paso de distancia). Eso es lo que hizo que ahora esté en la excelente 
posición en la que se encuentra. El valor de la acción «dar un paso 
adelante» en el estado «a un paso de distancia» se actualiza en la tabla Q 
para darle un valor más alto, una parte del valor de la acción «dar una 
patada a cero pasos», que proporciona directamente una recompensa. Aquí 
he actualizado este valor a ocho (figura 26). 


Tabla Q: 
Estado 0 pasos de 1 paso de ale 10 pasos de 
distancia distancia distancia 
Acción Paso adelante 0 Paso adelante 8 ... Paso adelante 0 
Paso atras 0 Paso atras 0 Paso atras 0 
Patada 10 Patada 0 Patada 0 


Figura 26. La tabla Q de Rosie después del segundo episodio de aprendizaje por refuerzo. 


Ahora la tabla Q le dice a Rosie que esta muy bien dar una patada cuando 
se encuentra en el estado «a cero pasos» y que esta casi igual de bien dar un 
paso adelante cuando se encuentra en el estado «a un paso». La próxima 
vez que Rosie se encuentre en el estado «a un paso de distancia», tendra 
algo de información sobre qué acción debe ejecutar y la capacidad de 
adquirir una actualización para la acción inmediatamente anterior: dar un 
paso adelante en el estado «a dos pasos». Es importante que los valores de 
las acciones aprendidas se reduzcan («se descuenten») a medida que están 
más alejadas en el tiempo respecto a la recompensa real, para que el sistema 
aprenda una forma eficaz de llegar hasta ella. 


El aprendizaje por refuerzo —en este caso, la actualización gradual de 
los valores de la tabla Q— continúa, episodio tras episodio, hasta que Rosie 
aprende por fin a ejecutar su tarea desde cualquier punto de partida inicial. 
El algoritmo de aprendizaje Q es una forma de asignar valores a las 
acciones en un estado determinado, incluidas las acciones de su segundo 
episodio de aprendizaje por refuerzo, que no proporcionan directamente 
recompensas, pero que preparan el terreno para los estados relativamente 
escasos en los que el agente sí recibe recompensas. 

Escribí un programa que simulaba el proceso de aprendizaje Q de Rosie 
que acabo de describir. Al principio de cada episodio, Rosie se colocaba 
frente al balón, a un número aleatorio de pasos de distancia (con un máximo 
de veinticinco y un mínimo de cero). Como ya he mencionado, si Rosie se 
salía de los límites, mi programa simplemente la hacía volver a entrar. Cada 
episodio terminaba cuando Rosie conseguía alcanzar el balón y darle una 
patada. Comprobé que Rosie tardaba unos trescientos episodios en aprender 
a ejecutar esta tarea a la perfección, independientemente de dónde 
empezara. 

Este ejemplo de «entrenamiento de Rosie» plasma en gran parte la 
esencia del aprendizaje por refuerzo, pero he dejado fuera muchas 
cuestiones que afrontan los investigadores del aprendizaje por refuerzo 
cuando se trata de tareas más complejas.[180] Por ejemplo, en las tareas del 
mundo real, la percepción que tiene el agente de su estado suele ser incierta, 
a diferencia de Rosie, que sabe perfectamente cuántos pasos de distancia la 
separan del balón. Un robot que juegue al fútbol en la realidad solo podría 
calcular aproximadamente la distancia, o incluso no sabría con certeza qué 
objeto pequeño y de color claro del campo de fútbol es exactamente el 
balón. Tampoco hay seguridad sobre las consecuencias de una acción: por 
ejemplo, la acción de dar un paso adelante puede hacer que el robot avance 
diferentes distancias según el terreno, o incluso hacer que se caiga o choque 


con un obstáculo invisible. ¿Cómo puede lidiar el aprendizaje por refuerzo 
con este tipo de incertidumbres? 

Además, ¿cómo debe elegir el agente que está aprendiendo cada acción 
en cada paso? Una estrategia ingenua sería elegir siempre la acción que en 
la tabla Q tenga el valor más alto para el estado actual. Pero esta estrategia 
tiene un inconveniente: es posible que otras acciones aún no probadas 
proporcionen una recompensa mayor. ¿Con qué frecuencia hay que 
investigar, llevar a cabo acciones que todavía no se han probado, y con qué 
frecuencia se deben elegir acciones que ya se prevé que van a proporcionar 
alguna recompensa? Cuando vamos a un restaurante, ¿pedimos siempre 
platos que ya hemos probado y nos han parecido buenos, o probamos algo 
nuevo porque quizá el menú contenga opciones incluso mejores? La 
decisión de hasta qué punto hay que probar nuevas acciones y hasta qué 
punto explotar (es decir, aferrarse a) las acciones comprobadas se llama 
equilibrio entre exploración y explotación. Y conseguir el equilibrio 
adecuado es fundamental para que el aprendizaje por refuerzo tenga éxito. 

Estos son ejemplos de temas investigados en la actualidad por la 
creciente comunidad de personas que trabajan en el aprendizaje por 
refuerzo. Al igual que en el campo del aprendizaje profundo, el diseño de 
sistemas de aprendizaje por refuerzo sigue siendo un trabajo difícil (y a 
veces lucrativo), dominado por un grupo relativamente pequeño de expertos 
que, como sus homólogos del aprendizaje profundo, dedican mucho tiempo 
a ajustar los hiperparámetros. (¿Cuántos episodios de aprendizaje deben 
permitirse? ¿Cuántas iteraciones por episodio deben permitirse? ¿Cuánto 
debería «descontarse» una recompensa a medida que retrocede en el 
tiempo?, y así sucesivamente). 


Obstáculos en el mundo real 


Vamos a dejar a un lado estas cuestiones por ahora para fijarnos en dos 
grandes obstáculos que pueden surgir al extrapolar nuestro ejemplo de 


«entrenar a Rosie» al aprendizaje por refuerzo en tareas del mundo real. En 
primer lugar, está la tabla Q. En tareas complejas del mundo real — 
pensemos, por ejemplo, en un coche robótico que aprende a conducir en 
una ciudad llena de gente— es imposible definir un pequeño conjunto de 
«estados» que puedan enumerarse en una tabla. Un estado concreto de un 
coche en un momento dado sería algo así como la totalidad de los datos de 
sus Cámaras y otros sensores. Eso significa que un coche autónomo, en la 
práctica, se enfrenta a un número infinito de estados posibles. Aprender 
mediante una tabla Q como la del ejemplo de Rosie es imposible. Por eso, 
la mayoría de los métodos modernos de aprendizaje por refuerzo utilizan 
una red neuronal en lugar de una tabla Q. El trabajo de la red neuronal 
consiste en aprender qué valores deben asignarse a las acciones en un 
estado determinado. En concreto, la entrada que recibe la red es el estado 
actual, y las salidas que emite son las estimaciones del valor de todas las 
acciones posibles que el agente puede llevar a cabo en ese estado. Lo que se 
espera es que la red pueda aprender a agrupar estados relacionados en 
conceptos generales («Se puede seguir hacia delante con seguridad» o 
«Para inmediatamente para no chocar con un obstáculo»). 

El segundo escollo es la dificultad de llevar a cabo el proceso de 
aprendizaje durante muchos episodios en el mundo real con un robot de 
verdad. Ni siquiera nuestro ejemplo de Rosie es factible. Imaginemos a una 
persona iniciando un nuevo episodio —saliendo al campo para preparar el 
robot y el balón— cientos de veces, por no hablar de esperar a que el robot 
ejecute cientos de acciones en cada episodio. No habría tiempo suficiente. 
Además, se podría correr el riesgo de que el robot se dañara por elegir una 
acción equivocada, como dar una patada a un muro de hormigón o avanzar 
hasta tirarse por un precipicio. 

Igual que hice con Rosie, los profesionales del aprendizaje por refuerzo 
suelen abordar este problema construyendo simulaciones de robots y de 
entornos, y desarrollando todos los episodios de aprendizaje en la 


simulación y no en el mundo real. A veces, este método funciona bien. Se 
ha entrenado a robots mediante simulaciones para que, entre otras tareas, 
caminen, salten, agarren objetos y conduzcan un coche con control remoto, 
y los robots han sido capaces, con distintos niveles de éxito, de trasladar las 
habilidades aprendidas durante la simulación al mundo real.[181] Sin 
embargo, cuanto más complejo e impredecible es el entorno, menos éxito 
tienen los intentos de transferir lo aprendido en la simulación al mundo real. 
Con estas dificultades, es lógico que hasta ahora los mayores éxitos del 
aprendizaje por refuerzo no se hayan producido en robótica, sino en campos 
que pueden simularse perfectamente en un ordenador. En concreto, los 
éxitos más conocidos del aprendizaje por refuerzo están en el ámbito de los 
juegos. La aplicación del aprendizaje por refuerzo a los juegos es el tema 
del próximo capítulo. 


[176] A. Sutherland, «What Shamu Taught Me About a Happy Marriage», The New York Times, 25 
de junio de 2006, www.nytimes.com/2006/06/25/fashion/whatshamu-taught-me-about-a-happy- 
marriage.html. 

[177] thejetsons.wikia.com/wiki/Rosey. 

[178] Para ser más exactos, este método del aprendizaje por refuerzo, denominado aprendizaje de 
valores, no es el único posible. Un segundo método, denominado aprendizaje de políticas, tiene como 
objetivo aprender directamente qué acción llevar a cabo en un estado determinado, en lugar de 
aprender primero los valores numéricos de las acciones. 


[179] C. J. Watkins y P. Dayan, «Q-Learning», Machine Learning 8, n.°° 3-4 (1992), pp. 279-292. 

[180] Para una introducción detallada y técnica al aprendizaje por refuerzo véase R. S. Sutton y A. 
G. Barto, Reinforcement Learning: An Introduction, 2.* ed., Cambridge, Mass.: MIT Press, 2017, 
incompleteideas.net/book/the-book-2nd.html. 

[181] Por ejemplo, véanse los siguientes trabajos: P. Christiano et al., «Transfer from Simulation to 
Real World Through Learning Deep Inverse Dynamics Model», arXiv:1610.03518 (2016); J. P. 
Hanna y P. Stone, «Grounded Action Transformation for Robot Learning in Simulation», en 
Proceedings of the Conference of the American Association for Artificial Intelligence (2017), pp. 
3834-3840; A. A. Rusu et al., «Sim-to-Real Robot Learning from Pixels with Progressive Nets», en 
Proceedings of the First Annual Conference on Robot Learning, CoRL (2017); S. James, A. J. 
Davison y E. Johns, «Transferring End-to-End Visuomotor Control from Simulation to Real World 
for a Multi-stage Task», en Proceedings of the First Annual Conference on Robot Learning, CoRL 


(2017); M. Cutler, T. J. Walsh y J. P. How, «Real-World Re-inforcement Learning via Multifidelity 
Simulators», IEEE Transactions on Robotics 31, n.° 3 (2015), pp. 655-671. 
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A jugar 


i= los primeros tiempos de la IA, los entusiastas estan obsesionados 
con crear programas capaces de ganar a los humanos en los juegos. A 
finales de los años cuarenta, Alan Turing y Claude Shannon, dos de los 
fundadores de la era informática, escribieron programas para jugar al 
ajedrez incluso antes de que existieran ordenadores capaces de ejecutar su 
código. En las décadas siguientes, muchos jóvenes fanáticos de los juegos 
se han sentido impulsados a aprender a programar para conseguir que el 
ordenador jugara a su juego favorito, ya sean las damas, el ajedrez, el 
backgammon, el go, el póquer o, más recientemente, los videojuegos. 

En 2010, un joven científico británico y entusiasta de los juegos llamado 
Demis Hassabis, junto con dos amigos, puso en marcha en Londres una 
empresa llamada DeepMind Technologies. Hassabis es una figura 
pintoresca y compleja dentro del mundo de la IA moderna. Un prodigio del 
ajedrez que ya ganaba campeonatos a los seis años, empezó a programar 
videojuegos profesionalmente a los quince y fundó su propia empresa de 
videojuegos a los veintidós. Además de sus actividades empresariales, hizo 
un doctorado en Neurociencia Cognitiva en el University College de 
Londres para avanzar en su propósito de crear una IA inspirada en el 
cerebro. Hassabis y sus colegas fundaron DeepMind Technologies para 
«abordar [las] cuestiones realmente fundamentales» de la inteligencia 


artificial.[182] Quizá no es extraño que el grupo DeepMind pensara que los 
videojuegos eran el escenario adecuado para abordar esas cuestiones. Los 
videojuegos son, en opinión de Hassabis, «una especie de microcosmos del 
mundo real, solo que [...] más limpios y restringidos».[183] 


Figura 27. Ilustración del juego Breakout de Atari. 


Independientemente de lo que opine cada uno sobre los videojuegos, si a 
alguien le gusta más lo «limpio y restringido» y menos el «mundo real», 
quizá le merezca la pena crear programas de IA para jugar a videojuegos de 
Atari de los años setenta y ochenta. Esto es exactamente lo que decidió 
hacer el grupo de DeepMind. Según su edad e intereses, puede que 
recuerden algunos juegos clásicos como Asteroids, Space Invaders, Pong y 
Ms. Pac-Man. ¿Les suena alguno? Con sus gráficos sencillos y controlados 
con joystick, eran unos juegos suficientemente fáciles para que los 
aprendieran los niños pequeños, pero suficientemente difíciles para 
mantener el interés de los adultos. 

Veamos el juego Breakout, para un solo jugador, ilustrado en la figura 27. 
El jugador utiliza el joystick para mover una «pala» (el rectángulo blanco en 


la parte inferior derecha) hacia delante y hacia atrás. La pala golpea una 
«pelota» (el círculo blanco) para dar contra «ladrillos» rectangulares de 
diferentes colores. La pelota también puede rebotar en las «paredes» grises 
de los lados. Si la pelota golpea uno de los ladrillos (los rectángulos con 
dibujos), el ladrillo desaparece, el jugador gana puntos y la pelota rebota. 
Los ladrillos de las capas superiores valen más puntos que los de las capas 
inferiores. Si la bola toca el «suelo» (la parte inferior de la pantalla), el 
jugador pierde una de las cinco vidas, y si todavía le queda alguna, sale una 
nueva bola. El objetivo del jugador es obtener la máxima puntuación 
durante las cinco vidas. 

Hay una interesante nota al margen. Breakout fue el resultado del intento 
de Atari de crear una versión para un solo jugador de su juego Pong, que 
había tenido gran éxito. El diseño y la implantación de Breakout se le 
encargaron inicialmente, en 1975, a un empleado veinteañero llamado Steve 
Jobs. Sí, ese Steve Jobs (más tarde, cofundador de Apple). Jobs no tenía 
suficientes conocimientos de ingeniería para hacer un buen trabajo con 
Breakout, así que reclutó a su amigo Steve Wozniak, de veinticinco años 
(más tarde, el otro cofundador de Apple), para que le ayudara en el 
proyecto. Wozniak y Jobs completaron el diseño del soporte físico de 
Breakout en cuatro noches; se ponían a trabajar cada noche cuando 
Wozniak acababa su jornada en Hewlett-Packard. Cuando salió a la venta, 
Breakout se hizo tan popular como Pong entre los jugadores. 

Si les invade la nostalgia pero no han conservado su vieja consola Atari 
2600, todavía hay muchos sitios web que ofrecen Breakout y otros juegos. 
En 2013, un grupo de investigadores canadienses de IA lanzó una 
plataforma llamada Arcade Learning Environment que permitía probar 
sistemas de aprendizaje automático en cuarenta y nueve de estos juegos. 
[184] Esta fue la plataforma que usó el grupo DeepMind en su trabajo sobre 
aprendizaje por refuerzo. 


Aprendizaje Q profundo 


El grupo DeepMind combinó el aprendizaje por refuerzo, en concreto el 
aprendizaje Q, con redes neuronales profundas para crear un sistema Capaz 
de aprender a jugar a videojuegos de Atari. El grupo denominó a su método 
aprendizaje Q profundo. Para explicar cómo funciona voy a usar de ejemplo 
Breakout, pero DeepMind utilizó el mismo método con todos los juegos de 
Atari. Vamos a ponernos un poco técnicos, así que prepárense (o sáltense 
esta parte). 


Entrada: Estado actual (fotograma actual más tres fotogramas anteriores) 


== Y - Módulo de 
memea —>| clasificación 


E 1 Capa 2 Capa 3 Capa 4 


Salida: 
Valores de acción 
estimados 


= 


Izquierda Derecha No-Op 


Figura 28. Ilustración de una red Q profunda (DQN) para Breakout. 


Recuerden cómo utilizamos el aprendizaje Q para entrenar al perro robot 
Rosie. En un episodio de aprendizaje Q, en cada iteración, el agente de 
aprendizaje (Rosie) hace lo siguiente: averigua su estado actual, busca ese 
estado en la tabla Q, utiliza los valores de la tabla para elegir una acción, 
lleva a cabo esa acción, quizá recibe una recompensa y —este es el paso de 
aprendizaje— actualiza los valores de su tabla Q. 

El aprendizaje Q profundo de DeepMind es exactamente igual, salvo que 
el lugar de la tabla Q lo ocupa una red neuronal convolucional. Voy a seguir 
el ejemplo de DeepMind y a llamar a esta red Red Q profunda (Deep Q- 
Network, DQN). La figura 28 ilustra una DQN similar (aunque más 


sencilla) a la utilizada por DeepMind para aprender a jugar a Breakout. La 
entrada que llega a la DQN es el estado del sistema en un momento dado, 
que aquí se define como el «fotograma» actual —los píxeles de la pantalla 
actual — más tres fotogramas anteriores (los píxeles de la pantalla de tres 
pasos temporales previos). Esta definición de estado proporciona al sistema 
una pequeña cantidad de memoria, que resulta útil en este caso. Las salidas 
que emite la red son los valores estimados para cada acción posible, 
teniendo en cuenta el estado de entrada. Las acciones posibles son las 
siguientes: mover la pala a la izquierda, mover la pala a la derecha y no-op 
(«no operar», es decir, no mover la pala). La red en sí es una ConvNet 
prácticamente idéntica a la que describí en el capítulo 4. En lugar de los 
valores de una tabla Q, como vimos en el ejemplo de Rosie, en el 
aprendizaje Q profundo lo que se aprende son los pesos de esta red. 

El sistema de DeepMind aprende a jugar a Breakout a lo largo de muchos 
episodios. Cada episodio corresponde a una partida del juego y cada 
iteración durante un episodio corresponde a una única acción del sistema. 
En concreto, en cada iteración el sistema introduce su estado en la DQN y 
decide una acción basándose en los valores de salida de la DQN. El sistema 
no siempre elige la acción con el valor estimado más alto; como he 
mencionado antes, el aprendizaje por refuerzo exige un equilibrio entre 
exploración y explotación.[185] El sistema lleva a cabo la acción elegida 
(por ejemplo, mover la pala un poco hacia la izquierda) y quizá recibe una 
recompensa si la pelota golpea uno de los ladrillos. A continuación, el 
sistema lleva a cabo el paso de aprendizaje, es decir, actualiza los pesos en 
la DQN mediante retropropagación. 

¿Cómo se actualizan los pesos? Esto es lo que verdaderamente distingue 
el aprendizaje supervisado del aprendizaje por refuerzo. Como vimos en 
capítulos anteriores, la retropropagación funciona cambiando los pesos de 
una red neuronal para reducir el error en las salidas de la red. Con el 
aprendizaje supervisado, medir este error es sencillo. ¿Recuerdan nuestra 


ConvNet hipotética del capítulo 4, cuyo objetivo era aprender a clasificar 
fotos como «perro» o «gato»? Si una foto de entrenamiento que constituía 
la entrada mostraba un perro, pero la confianza con la que se emitía «perro» 
era solo del 20 por ciento, entonces el error para esa salida sería 100 % — 
20 % = 80 %; es decir, en teoría, el valor de salida debería haber sido 
ochenta puntos más alto. La red podía calcular el error porque tenía una 
etiqueta que le había proporcionado un ser humano. 

Sin embargo, en el aprendizaje por refuerzo no tenemos etiquetas. Un 
fotograma concreto del juego no está etiquetado con la acción que debe 
emprenderse. Entonces, ¿cómo asignamos un error a una salida emitida en 
este Caso? 

He aquí la respuesta. Recordemos que para el agente de aprendizaje, el 
valor de una acción en el estado actual es su cálculo de la recompensa que 
recibirá al final del episodio si elige esa acción (y continúa eligiendo 
acciones de gran valor). Esta estimación debería ser más acertada cuanto 
más se acerque el final del episodio, cuando pueda contar las recompensas 
reales que ha recibido. El truco está en suponer que las salidas de la red en 
la iteración actual están más cerca de ser correctas que sus salidas en la 
iteración anterior. Entonces, el aprendizaje consiste en ajustar los pesos de 
la red (mediante retropropagación) para reducir al mínimo la diferencia 
entre los resultados de la iteración actual y la anterior. Richard Sutton, uno 
de los creadores de este método, lo llama «aprender una conjetura a partir 
de una conjetura».[186] Yo lo llamaría más bien «aprender una conjetura a 
partir de una conjetura mejor». 

En resumen, en vez de aprender a ajustar los valores de salida a las 
etiquetas proporcionadas por los humanos, la red aprende a hacer que esos 
valores sean coherentes entre una iteración y la siguiente, basándose en la 
hipótesis de que las iteraciones posteriores dan mejores estimaciones del 
valor que las anteriores. Este método de aprendizaje se denomina 
aprendizaje por diferencia temporal. 


Para recapitular, así es como funciona el aprendizaje Q profundo para el 
juego de Breakout (y todos los demás juegos de Atari). El sistema da su 
estado actual como entrada a la red Q profunda. Esta genera un valor para 
cada acción posible. El sistema elige y ejecuta una acción, lo que da como 
resultado un nuevo estado. Ahora lleva a cabo el paso de aprendizaje: el 
sistema introduce su nuevo estado en la red, que genera un nuevo conjunto 
de valores para cada acción. La diferencia entre ese conjunto de valores y el 
anterior se considera el «error» de la red; la retropropagación utiliza ese 
error para cambiar los pesos de la red. Estos pasos se repiten a lo largo de 
muchos episodios (las jugadas de la partida). Que quede claro que todo esto 
—la red Q profunda, el joystick virtual y el propio juego— son programas 
que se ejecutan en un ordenador. 

Este es, en definitiva, el algoritmo desarrollado por los investigadores de 
DeepMind, aunque emplearon algunos trucos para mejorarlo y acelerarlo. 
[187] Al principio, antes de que la red haya aprendido mucho, sus valores de 
salida son bastante aleatorios, y la forma de jugar del sistema también 
parece bastante aleatoria. Pero poco a poco, a medida que la red aprende a 
ponderar pesos que mejoran las salidas que emite, la capacidad de juego del 
sistema mejora, en muchos casos de forma espectacular. 


El agente de 650 millones de dólares 


El grupo DeepMind aplicó su método de aprendizaje Q profundo a los 
cuarenta y nueve juegos de Atari en el Entorno de Aprendizaje Arcade. 
Aunque los programadores utilizaron la misma arquitectura de red y los 
mismos ajustes de hiperparámetros para todos los juegos, el sistema 
aprendió cada juego desde cero; es decir, los conocimientos del sistema (los 
pesos de la red) aprendidos para un juego no se transferían cuando el 
sistema empezaba a aprender a jugar al siguiente. Cada juego exigía un 
entrenamiento con miles de episodios, pero eso era relativamente rápido 
gracias a los potentes ordenadores de la empresa. 


Después de entrenar una red Q profunda para cada juego, DeepMind 
comparó el nivel de juego de la máquina con el de un «probador de juegos 
profesional» humano, al que se le permitieron dos horas de práctica antes de 
ser evaluado. ¿Parece un trabajo divertido? Solo para quien disfrute cuando 
lo humilla un ordenador. Los programas de aprendizaje Q profundo de 
DeepMind demostraron que jugaban mejor que el probador humano en más 
de la mitad de los juegos. Y en la mitad de esos juegos, los programas 
consiguieron resultados más de dos veces mejores que el humano. Y en la 
mitad de esos, los programas fueron más de cinco veces mejores. Un 
ejemplo especialmente llamativo fue el de Breakout, donde el programa 
DQN obtuvo una puntuación media más de diez veces superior a la del 
probador humano. 

¿Qué aprendieron a hacer exactamente esos programas sobrehumanos? 
Cuando DeepMind lo indagó, descubrió que sus programas habían 
descubierto varias estrategias muy inteligentes. Por ejemplo, el programa 
entrenado con Breakout había descubierto un enrevesado truco que muestra 
la figura 29. Aprendió que si la bola era capaz de derribar ladrillos y formar 
un túnel estrecho que los atravesara, entonces rebotaba entre el «techo» y la 
parte superior de la capa de ladrillos y derribaba a toda velocidad los de 
arriba, muy valiosos, sin que el jugador tuviera que mover la pala en 
absoluto. 

DeepMind presentó este trabajo en 2013, en una conferencia 
internacional sobre aprendizaje automático.[188] El público quedó 
deslumbrado. Menos de un año después, Google anunció que había 
adquirido DeepMind por 440 millones de libras (unos 475 millones de 
euros de la época), es de suponer que debido a estos resultados. Sí, el 
aprendizaje por refuerzo a veces proporciona grandes recompensas. 

Con todo ese dinero en los bolsillos y los recursos de Google a sus 
espaldas, DeepMind —ahora llamada Google DeepMind— se propuso un 
objetivo de más envergadura, que de hecho se había considerado durante 


mucho tiempo uno de los «grandes retos» de la IA: crear un programa que 
aprendiera a jugar al go mejor que cualquier ser humano. El programa 
AlphaGo de DeepMind se basa en una larga historia de la IA con los juegos 
de mesa. Empezaré con un breve repaso de esa historia, que nos ayudará a 
explicar cómo funciona AlphaGo y por qué es tan importante. 


Figura 29. El jugador de Breakout de DeepMind descubrió la estrategia de hacer túneles a 
través de los ladrillos, lo que le permitió destruir rápidamente los ladrillos superiores, de 
alto valor, a base de rebotar en el «techo». 


Damas y ajedrez 


En 1949, el ingeniero Arthur Samuel se incorporó al laboratorio de IBM en 
Poughkeepsie, Nueva York, e inmediatamente se puso a programar una de 
las primeras versiones del ordenador 701 de IBM para jugar a las damas. 
Quien tenga alguna experiencia en programación informática sabrá valorar 
la dificultad de lo que se proponía: como señala un historiador, «Samuel fue 
la primera persona que programó en serio el 701, así que el sistema no tenía 
utilidades dignas de tal nombre [en definitiva, no tenía sistema operativo]. 
En concreto, no tenía ensamblador y tenía que escribirlo todo utilizando los 


códigos de operación y las direcciones».[189] Para que lo entiendan los 
lectores no programadores, esto es algo así como construir una casa solo 
con una sierra de mano y un martillo. El programa de Samuel para jugar a 
las damas fue uno de los primeros programas de aprendizaje automático; es 
más, fue él quien acuñó el término aprendizaje automático. 

El jugador de damas de Samuel se basaba en el método de búsqueda en 
un árbol de juego, que es la base de todos los programas de juegos de mesa 
hasta hoy (incluido AlphaGo, que describiré más adelante). La figura 30 
ilustra parte de un árbol de juego para las damas. La «raíz» del árbol 
(dibujada por costumbre en la parte superior, a diferencia de la raíz de un 
árbol natural) muestra el tablero de damas al principio, antes de que 
ninguno de los jugadores se haya movido. Las «ramas» que salen de la raíz 
desembocan en todos los movimientos posibles para las damas del primer 
jugador (aquí, las negras). Hay siete jugadas posibles (para simplificar, la 
figura no muestra más que tres de ellas). Para cada uno de esos siete 
movimientos de las negras, hay siete posibles movimientos de respuesta de 
las blancas (no aparecen todos), y así sucesivamente. Cada uno de los 
tableros de la figura 30, que muestra una posible disposición de las piezas, 
se denomina una posición del tablero. 

Imaginemos que estamos jugando a las damas. En cada turno, podríamos 
armar mentalmente una pequeña parte de este árbol. Podríamos decir: «Si 
hago esta jugada, mi oponente puede hacer esta otra, en cuyo caso yo podría 
hacer esa otra, lo que me permitiría dar un salto». La mayoría de la gente, 
incluidos los mejores jugadores, tienen en cuenta solo unos cuantos 
movimientos posibles y no piensan más que en unos pocos pasos antes de 
decidir su jugada. Un ordenador rápido, por el contrario, puede hacer ese 
tipo de predicciones a una escala mucho mayor. ¿Qué le impide al 
ordenador analizar todos los movimientos posibles y ver qué secuencia 
lleva con más rapidez a la victoria? El problema es el mismo tipo de 
incremento exponencial que vimos en el capítulo 3 (el del rey, el sabio y los 


granos de arroz). Una partida de damas, por término medio, tiene alrededor 
de cincuenta jugadas, lo que significa que el árbol de juego de la figura 30 
podría extenderse hacia abajo durante cincuenta niveles. En cada nivel, hay 
una media de seis o siete ramas a partir de cada posición posible del tablero. 
Esto significa que el número total de posiciones del tablero en el árbol 
podría ser superior a más de seis elevado a la quincuagésima potencia 


(620), un número increíblemente enorme. Un ordenador hipotético que 
pudiera ver un billón de posiciones de tablero por segundo tardaría más de 


1019 años en examinar todas las posiciones de tablero de un único árbol de 
juego. (Como suele hacerse, podemos comparar esta cifra con la edad del 


010 


universo, que es solo del orden de 1 años). Esta claro que una búsqueda 


completa del arbol de juego no es factible. 


Jugada de las negras 


de las negras 


Figura 30. Parte de un arbol de juego para las damas. Para simplificar, esta figura muestra 
solo tres movimientos posibles desde cada posición del tablero. Las flechas blancas apuntan 
desde la casilla anterior de una pieza movida hasta su casilla actual. 


Por suerte, los ordenadores pueden jugar bien sin hacer una búsqueda tan 
exhaustiva. En cada uno de sus turnos, el programa de Samuel para jugar a 
las damas creaba (en la memoria del ordenador) una pequeña parte de un 
árbol de juego como el de la figura 30. La raíz del árbol era la posición 
actual del jugador en el tablero, y el programa, con los conocimientos 
integrados sobre las reglas de las damas, generaba todas las jugadas legales 
que podía hacer desde esa posición. Luego generaba todas las que el 
oponente podía hacer desde cada una de las posiciones resultantes, y así 
sucesivamente hasta cuatro o cinco turnos (o «capas») por delante.[190] 

Después, el programa evaluaba las posiciones de tablero que aparecían al 
final del proceso de anticipación; en la figura 30, serían las posiciones de 
tablero de la fila inferior del árbol parcial. Evaluar una posición de tablero 
significa asignarle un valor numérico que calcula la probabilidad de que 
proporcione una victoria al programa. El programa de Samuel usaba una 
función de evaluación que daba puntos, treinta y ocho en total, por varios 
elementos del tablero, como la ventaja de las negras en número total de 
piezas, el número de reyes de las negras y cuántas damas negras estaban 
cerca de ser reyes. Estas características específicas las había escogido 
Samuel basándose en sus conocimientos sobre las damas. Después de 
evaluar cada una de las posiciones de la fila inferior del tablero, el 
programa empleaba un algoritmo clásico, llamado minimax, que usaba esos 
valores —a partir del final del proceso de anticipación— para calificar las 
posibles jugadas inmediatas del programa desde su posición actual en el 
tablero. Entonces, el programa elegía la jugada mejor valorada. 

Lo que se intuye aquí es que la función de evaluación será más precisa 
cuando se aplique a las posiciones del tablero con el juego más avanzado; 
por tanto, la estrategia del programa es primero mirar todas las posibles 
secuencias de movimientos con unos cuantos pasos de adelanto y luego 
aplicar la función de evaluación a las posiciones del tablero resultantes. 
Entonces, el minimax retropropaga las evaluaciones en el árbol, lo que 


genera una clasificación de todas las posibles jugadas inmediatas desde la 
posición actual del tablero.[191] 

Lo que aprendía el programa era qué elementos del tablero debían 
incluirse en la función de evaluación en un turno determinado, así como la 
forma de ponderar esos distintos elementos al sumar sus puntos. Samuel 
experimentó con varios métodos de aprendizaje en su sistema. En la versión 
más interesante, el sistema aprendía mientras jugaba. El método de 
aprendizaje era un poco complicado y no voy a detallarlo aquí, pero tenía 
algunos aspectos precursores del actual aprendizaje por refuerzo.[192] 

A la hora de la verdad, el jugador de damas de Samuel llegó a tener el 
nivel nada despreciable de «un jugador por encima de la media», aunque de 
ninguna manera el de un campeón. Algunos jugadores aficionados dijeron 
que era «difícil pero derrotable».[193] Pero, sobre todo, el programa fue una 
bendición publicitaria para IBM: al día siguiente de que Samuel lo enseñara 
en la televisión nacional, en 1956, el precio de las acciones de IBM subió 
quince puntos. Esta fue la primera de varias ocasiones en las que IBM vio 
subir el precio de sus acciones después de una exhibición de algún 
programa de juego capaz de ganar a los humanos; el ejemplo más reciente 
es la subida del precio de las acciones que se produjo después de que se 
emitieran, con enorme éxito de audiencia, una serie de victorias de su 
programa Watson en el concurso Jeopardy! 

No obstante, aunque el programa jugador de damas de Samuel fue un 
hito importante en la historia de la IA, he hecho esta digresión más que 
nada para introducir tres conceptos muy importantes: el árbol de juego, la 
función de evaluación y el aprendizaje a base de jugar contra sí mismo. 


Deep Blue 


Si bien el programa de damas de Samuel, «difícil pero derrotable», era 
extraordinario, en especial para su época, no refutaba verdaderamente la 
idea que la gente tenía de sí misma como seres de inteligencia singular. 


Aunque una máquina pudiera ganar a campeones humanos de damas (como 
acabó ocurriendo en 1994),[194] jugar bien a las damas nunca se había 
considerado una muestra de inteligencia general. El ajedrez era otra cosa. 
En palabras de Demis Hassabis, de DeepMind: «Durante décadas, los 
principales informáticos creyeron que, dado el prestigio tradicional del 
ajedrez como demostración por excelencia del intelecto humano, un 
ordenador que jugara de forma competente al ajedrez no tardaría en superar 
también todas las demás aptitudes humanas».[195] Muchas personas, 
incluidos los pioneros de la IA Allen Newell y Herbert Simon, compartían 
esta visión glorificada del ajedrez; en 1958, Newell y Simon escribieron: 
«Si alguien pudiera diseñar una máquina capaz de jugar con éxito al 
ajedrez, sentiría que ha entrado en el corazón del esfuerzo intelectual 
humano».[196] 

El ajedrez es mucho más complejo que las damas. Por ejemplo, antes he 
dicho que en las damas hay, por término medio, seis o siete jugadas posibles 
desde cualquier posición del tablero. En cambio, en el ajedrez hay una 
media de treinta y cinco jugadas desde cualquier posición del tablero. Eso 
hace que el árbol de juego del ajedrez sea muchísimo mayor que el de las 
damas. Durante décadas, los programas de ajedrez han ido mejorando al 
mismo ritmo que la velocidad de los ordenadores. En 1997, IBM obtuvo su 
segundo gran triunfo en el mundo de los juegos con Deep Blue, un 
programa de ajedrez que derrotó al campeón mundial Garry Kasparov en 
una partida multijuego retransmitida a todo el mundo. 

Deep Blue utilizaba casi el mismo método que el programa de damas de 
Samuel: en un turno dado, creaba un árbol de juego parcial usando la 
posición actual del tablero como raíz; aplicaba su función de evaluación a la 
capa más lejana del árbol y luego recurría al algoritmo minimax para 
retropropagar los valores en el árbol con el fin de decidir qué jugada hacer. 
Las principales diferencias entre el programa de Samuel y Deep Blue eran 
que este tenía una mayor capacidad de anticipación en su árbol de juego, 


una función de evaluación más compleja (específica del ajedrez), unos 
conocimientos de ajedrez programados manualmente y equipos paralelos 
especiales para hacerlo funcionar muy rápido. Además, a diferencia del 
programa de damas de Samuel, en Deep Blue el aprendizaje automático no 
era central. 

Como había ocurrido con el programa de damas de Samuel, la victoria de 
Deep Blue contra Kasparov provocó un aumento significativo del precio de 
las acciones de IBM.[197] Además, la derrota generó una consternación 
considerable en los medios de comunicación por las connotaciones sobre la 
inteligencia sobrehumana, así como dudas sobre si la gente seguiría 
sintiéndose motivada para jugar al ajedrez. Sin embargo, en las décadas 
transcurridas desde Deep Blue, la humanidad se ha adaptado. Como 
escribió Claude Shannon en 1950, una máquina capaz de superar a los 
humanos en ajedrez «nos obligará a admitir la posibilidad del pensamiento 
automático o a restringir aún más nuestro concepto de pensamiento».[198] 
Esto es lo que ha sucedido. Ahora se considera que jugar al ajedrez de 
forma sobrehumana es algo que no requiere inteligencia general. Deep Blue 
no es inteligente en el sentido que le damos hoy a la palabra. No puede 
hacer otra cosa que jugar al ajedrez, y no tiene ni idea de lo que significa 
para los seres humanos «jugar una partida» o «ganar». (Una vez oí decir a 
un conferenciante: «Puede que Deep Blue venciera a Kasparov, pero no lo 
disfrutó»). Además, el ajedrez ha sobrevivido —e incluso prosperado— 
como actividad humana estimulante. Hoy en día, los jugadores humanos 
utilizan programas informáticos de ajedrez como instrumento para 
entrenarse, del mismo modo que un jugador de béisbol puede practicar con 
una máquina lanzadora. ¿Es esto consecuencia de la evolución de nuestra 
noción de inteligencia, que los avances en IA ayudan a aclarar? ¿O es otro 
ejemplo de la máxima de John McCarthy: «En cuanto funciona, todo el 
mundo deja de llamarlo IA »?[199] 


El gran reto del go 


El go existe desde hace más de dos mil años y está considerado uno de los 
juegos de mesa más difíciles. Si ustedes no son jugadores de go, no se 
preocupen; nada de lo que voy a decir aquí exige conocer previamente el 
juego. Pero es útil saber que se trata de un juego muy prestigioso, sobre 
todo en el este de Asia, donde es enormemente popular. «El go es un 
pasatiempo amado por emperadores y generales, intelectuales y niños 
prodigio», escribe el académico y periodista Alan Levinovitz. Y cita a 
continuación al campeón surcoreano de go Lee Sedol: «En el mundo 
occidental existe el ajedrez, pero el go es incomparablemente más sutil e 
intelectual».[200] 

El go es un juego con reglas bastante sencillas, pero que tiene lo que 
podríamos llamar complejidad emergente. En cada turno, un jugador coloca 
una pieza de su color (blanco o negro) en un tablero de diecinueve por 
diecinueve casillas, de acuerdo con las reglas sobre dónde se pueden 
colocar las piezas propias y cómo capturar las del rival. A diferencia del 
ajedrez, con su jerarquía de peones, alfiles, reinas y todo lo demás, en el go 
las piezas («piedras») son todas iguales. Lo que cada jugador tiene que 
analizar con rapidez para decidir una jugada es la disposición de las piedras 
en el tablero. 

Crear un programa que juegue bien al go ha sido uno de los objetivos de 
la IA desde los primeros tiempos, pero la complejidad del juego ha 
dificultado extraordinariamente esta tarea. En 1997, el mismo año en que 
Deep Blue derrotó a Kasparov, los mejores programas de go aún podían 
Caer derrotados con facilidad por un jugador medio. Deep Blue, 
recordaremos, era Capaz de hacer una gran cantidad de predicciones desde 
cualquier posición del tablero y luego usar su función de evaluación para 
asignar valores a futuras posiciones, en las que cada valor predecía si una 
posición concreta del tablero desembocaría en una victoria. Los programas 
de go no pueden utilizar esta estrategia por dos motivos. En primer lugar, el 


tamaño de un árbol de juego en el go es mucho mayor que en el ajedrez. 
Mientras que un jugador de ajedrez debe elegir entre una media de treinta y 
cinco jugadas posibles a partir de una posición dada en el tablero, un 
jugador de go tiene una media de doscientas cincuenta posibilidades. 
Incluso con un equipo informático especial, no es factible hacer una 
búsqueda a las bravas, como las de Deep Blue, en el árbol del go. En 
segundo lugar, nadie ha conseguido crear una buena función de evaluación 
para las posiciones del tablero de go. Es decir, nadie ha sido capaz de 
construir una fórmula verdaderamente capaz de examinar una posición de 
tablero en el go y predecir quién va a ganar. Los mejores jugadores 
(humanos) de go confían en su capacidad de reconocer patrones y en una 
«intuición» difícil de expresar. 

Los investigadores de IA no han descubierto todavía cómo codificar la 
intuición en una función de evaluación. Por eso, en 1997, el mismo año en 
el que Deep Blue derrotó a Kasparov, el periodista George Johnson escribió 
en The New York Times: «Cuando un ordenador derrote a un campeón 
humano de go —si alguna vez lo consigue—, será la señal de que la 
inteligencia artificial está empezando a ser tan buena como la real».[201] 
Quizá suene familiar; es lo mismo que la gente solía decir sobre el ajedrez. 
Johnson citaba la predicción de un entusiasta del go: «Puede que pasen cien 
años hasta que un ordenador gane a los humanos al go; puede que incluso 
más». Apenas veinte años más tarde, AlphaGo, que había aprendido a jugar 
al go mediante aprendizaje Q profundo, venció a Lee Sedol en una partida 
de cinco juegos. 


AlphaGo contra Lee Sedol 


Antes de explicar cómo funciona AlphaGo, recordemos sus espectaculares 
victorias contra Lee Sedol, uno de los mejores jugadores de go del mundo. 
Incluso después de haber visto que AlphaGo había vencido al entonces 
campeón europeo de go, Fan Hui, medio año antes, Lee seguía confiando en 


que iba a ganar: «Creo que [el nivel de AlphaGo] no está a la altura del 
mío... Por supuesto, habrá habido muchas actualizaciones en los últimos 
cuatro o cinco meses, pero no le habrá dado tiempo para estar a mi nivel». 
[202] 

Tal vez usted sea una de los más de doscientos millones de personas que 
vieron por internet algún rato de la partida AlphaGo-Lee en marzo de 2016. 
Estoy segura de que es el mayor número de espectadores, con diferencia, 
que ha tenido ninguna partida de go en los veinticinco siglos de historia del 
juego. Tras la primera partida, es posible que compartiera la reacción de 
Lee ante su derrota: «Estoy en estado de shock, lo reconozco... No creía 
que AlphaGo fuera a jugar de una forma tan perfecta».[203] 

El juego «perfecto» de AlphaGo incluyó muchas jugadas que provocaron 
sorpresa y admiración entre los comentaristas humanos. Pero, a mitad de la 
segunda partida, AlphaGo hizo una jugada que dejó patidifusos incluso a 
los mayores expertos en el go. Como informó Wired: 

Al principio, Fan Hui [el campeón europeo de go antes mencionado] pensó que la jugada era 

bastante extraña. Pero luego le vio la belleza. «No es una jugada humana. Nunca he visto a un 

humano hacer esta jugada —dice—. Qué preciosidad». Es una palabra que repite una y otra 
vez. Preciosa. Preciosa. Preciosa... «Es una jugada muy sorprendente», dijo uno de los 
comentaristas de la partida en inglés, un jugador de go de gran talento. Entonces el otro se rio 

y dijo: «Pensé que era un error». Pero quizá el más sorprendido fue Lee Sedol, que se levantó 


y abandonó la sala. «Ha tenido que ir a lavarse la cara o algo así para recuperarse», dijo el 
primer comentarista.[204] 


Sobre esta misma jugada, The Economist señaló: «Curiosamente, los 
maestros humanos del go hacen a veces este tipo de jugadas. En japonés las 
llaman kami no itte (“la mano de Dios” o “jugadas divinas”)».[205] 

AlphaGo ganó esa partida y la siguiente. Pero en la cuarta partida, Lee 
tuvo su propio momento kami no itte, que encarna la complejidad del juego 
y la capacidad de intuición de los mejores jugadores. La jugada de Lee 
sorprendió a los comentaristas, pero enseguida reconocieron que podía ser 
letal para su adversario. Un cronista escribió: «Sin embargo, AlphaGo no 


parecía darse cuenta de lo que estaba pasando. No se había encontrado con 
nada similar [...] en los millones y millones de partidas que había jugado 
consigo misma. En la rueda de prensa posterior a la partida, se le preguntó a 
Sedol en qué había pensado mientras movía su piedra. Dijo que había sido 
la única jugada que había podido ver».[206] 

AlphaGo perdió la cuarta partida, pero remontó para ganar la quinta y, 
por tanto, la competición. En los medios de comunicación de masas se trató 
como un nuevo duelo entre Deep Blue y Kasparov, con innumerables 
artículos de opinión sobre lo que el triunfo de AlphaGo significaba para el 
futuro de la humanidad. Pero este triunfo era aún más significativo que la 
victoria de Deep Blue: la IA había superado un escollo todavía mayor que 
el del ajedrez, y lo había hecho de una forma mucho más impresionante. A 
diferencia de Deep Blue, AlphaGo había adquirido sus habilidades 
mediante el aprendizaje por refuerzo jugando contra sí misma. 

Demis Hassabis señaló que «lo que distingue a los mejores jugadores de 
go [es] su intuición», y que «lo que hemos hecho con AlphaGo es 
introducir, con redes neuronales, este aspecto de la intuición, si se quiere 
llamar así».[207] 


Cómo funciona AlphaGo 


Ha habido varias versiones diferentes de AlphaGo, así que, para mantener 
un orden, DeepMind empezó a llamarlas como los campeones humanos de 
go a los que habían derrotado —AlphaGo Fan y AlphaGo Lee—, algo que a 
mí me recordaba a la imagen de los cráneos de los enemigos vencidos en la 
colección de un vikingo digital. Estoy segura de que no era ese el objetivo 
de DeepMind. En cualquier caso, tanto AlphaGo Fan como AlphaGo Lee 
utilizaron una enrevesada mezcla de aprendizaje Q profundo, «búsqueda de 
árbol de Monte Carlo», aprendizaje supervisado y conocimientos 
especializados de go. Sin embargo, un año después de la partida contra Lee 
Sedol, DeepMind desarrolló una versión del programa que era al mismo 


tiempo más sencilla y mejor que las versiones anteriores. Esta nueva 
versión se llama AlphaGo Zero porque, a diferencia de su predecesora, 
partía con «cero» conocimientos sobre el go, aparte de las reglas.[208] En 
cien partidas de AlphaGo Lee contra AlphaGo Zero, esta última las ganó 
todas. Además, DeepMind aplicó los mismos métodos (aunque con redes 
diferentes y distintas reglas de juego incorporadas) para aprender a jugar al 
ajedrez y al shogi (también conocido como ajedrez japonés).[209 A esta 
serie de métodos la llamaron AlphaZero. En esta sección describiré cómo 
funcionaba AlphaGo Zero, pero para no extenderme, llamaré a esta versión 
sencillamente AlphaGo. 

La palabra intuición tiene un aura de misterio, pero la intuición de 
AlphaGo (si queremos llamarla así) nace de su combinación de aprendizaje 
Q profundo con un método inteligente llamado «búsqueda de árbol de 
Monte Carlo». Vamos a detenernos a descifrar este largo nombre. Primero, 
la parte de «Monte Carlo». Montecarlo es, por supuesto, la parte más 
glamurosa del diminuto Principado de Mónaco, en la Riviera francesa, 
conocido por sus casinos llenos de famosos y millonarios, sus carreras de 
coches y su frecuente aparición en las películas de James Bond. Pero en 
ciencia y matemáticas, «Monte Carlo» es una familia de algoritmos 
informáticos, el llamado método de Monte Carlo, que se utilizó por primera 
vez durante el Proyecto Manhattan para ayudar a diseñar la bomba atómica. 
El nombre procede de la idea de que un ordenador puede utilizar cierto 
grado de aleatoriedad —como la de la icónica ruleta giratoria del Casino de 
Montecarlo— para resolver problemas matemáticos difíciles. 
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Figura 31. Ilustración de la búsqueda de árbol de Monte Carlo. 


La búsqueda de árbol de Monte Carlo es una versión del método de 
Monte Carlo concebida específicamente para programas informáticos de 
juego. Igual que la función de evaluación de Deep Blue, la búsqueda de 
árbol de Monte Carlo se utiliza para asignar una puntuación a cada jugada 
posible desde una posición determinada del tablero. Sin embargo, como he 
explicado anteriormente, el uso de una búsqueda muy anticipada en el árbol 
de juego no es factible en el go, y nadie ha sido capaz de crear una buena 
función de evaluación para las posiciones del tablero en este juego. La 
búsqueda de árbol de Monte Carlo funciona de forma diferente. 

La figura 31 ilustra la búsqueda de árbol de Monte Carlo. Primero, 
veamos la figura 31A. El círculo negro representa la posición actual del 
tablero, es decir, la disposición de las piezas sobre el tablero en el turno 
actual. Supongamos que nuestro programa de jugar al go está jugando con 
las negras y es su turno. Supongamos, para simplificar, que las negras 
tienen tres movimientos posibles, representados por las tres flechas. ¿Cuál 
debe elegir? 

Si el jugador que tiene las negras dispusiera de tiempo suficiente, podría 
hacer una «búsqueda completa» en el árbol de juego: mirar todas las 
posibles secuencias de jugadas futuras que se podrían hacer y elegir la que 


tenga más probabilidades de llevar a las negras a la victoria. Pero no es 
posible hacer esta búsqueda exhaustiva; como he explicado antes, ni 
siquiera todo el tiempo transcurrido desde el comienzo del universo es 
suficiente para hacer una búsqueda completa de árbol en el go. Con la 
búsqueda de árbol de Monte Carlo, las negras miran solo una fracción 
minúscula de las posibles secuencias que podrían derivar de cada jugada, 
cuentan cuántas victorias y derrotas obtienen esas secuencias hipotéticas y 
usan esos cálculos para evaluar cada uno de los posibles movimientos. La 
aleatoriedad inspirada en la rueda de la ruleta se utiliza para decidir cómo 
hacer la búsqueda por adelantado. 

Más en concreto, para elegir una jugada desde su posición actual, las 
negras «imaginan» (es decir, simulan) varias formas posibles en las que se 
podría desarrollar la partida, como se ilustra en la figura 31B-D. En cada 
una de estas simulaciones, las negras comienzan en su posición actual, 
eligen aleatoriamente una de sus posibles jugadas, después (desde la nueva 
posición del tablero) eligen aleatoriamente una jugada para su rival (las 
blancas), y así sucesivamente, hasta que la partida simulada termine con 
una victoria o una derrota para las negras. Este tipo de simulación, que parte 
de una posición determinada en el tablero, es lo que se llama un roll-out 
(lanzamiento o despliegue) a partir de esa posición. 

En la figura se puede ver que, en los tres lanzamientos, las negras han 
ganado una vez y han perdido dos. Ahora las negras pueden asignar una 
puntuación a cada jugada posible desde su posición actual en el tablero 
(figura 31E). La jugada 1 (flecha a la izquierda) ha participado en dos 
lanzamientos, uno de los cuales acabó en victoria, por lo que la puntuación 
es 1 sobre 2. La jugada 3 (flecha a la derecha) ha participado en un 
lanzamiento que acabó en derrota, por lo que su puntuación es O sobre 1. La 
jugada que representa la flecha central no se intentó, así que su puntuación 
es de 0. Además, el programa registra estadísticas similares sobre todos los 
movimientos intermedios de los lanzamientos. Una vez terminada esta 


ronda de búsqueda de árbol de Monte Carlo, el programa puede utilizar las 
puntuaciones actualizadas para decidir cuál de las posibles jugadas parece 
más prometedora; aquí, la 1. Entonces el programa puede hacerla en la 
partida real. 

Cuando dije antes que durante un lanzamiento el programa elige jugadas 
para sí mismo y para sus rivales de forma aleatoria, lo que ocurre en 
realidad es que el programa elige jugadas con criterio probabilístico, 
basándose en las puntuaciones que tienen esas jugadas de rondas anteriores 
de búsqueda de árbol de Monte Carlo. Cuando un lanzamiento termina con 
una victoria o una derrota, el algoritmo actualiza todas las puntuaciones de 
las jugadas realizadas durante esa partida para reflejar la victoria o la 
derrota. 

Al principio, la elección de jugadas por parte del programa a partir de 
una posición dada del tablero es muy aleatoria (hace el equivalente a girar 
una ruleta para escoger un número), pero a medida que el programa hace 
más lanzamientos y genera más estadísticas, está cada vez más predispuesto 
a elegir las jugadas que en tiradas anteriores han proporcionado más 
victorias. 

Es decir, el algoritmo de búsqueda de árbol de Monte Carlo no tiene que 
adivinar a partir de la posición en el tablero qué jugada tiene más 
probabilidades de desembocar en victoria, sino que utiliza sus lanzamientos 
para recoger datos sobre cuántas veces una jugada determinada proporciona 
verdaderamente una victoria o una derrota. Cuantos más lanzamientos haga 
el algoritmo, mejores serán sus estadísticas. Como antes, el programa 
necesita encontrar el equilibrio entre la explotación (elegir las jugadas de 
mayor puntuación durante un lanzamiento) y la exploración (elegir a veces 
jugadas de menor puntuación sobre las que el programa todavía no tiene 
grandes estadísticas). En la figura 31 se muestran tres lanzamientos; la 
búsqueda de árbol de Monte Carlo de AlphaGo hizo casi dos mil 
lanzamientos por turno. 


Los informáticos de DeepMind no inventaron la búsqueda de árbol de 
Monte Carlo. La primera vez que se propuso fue en el contexto de los 
árboles de juego en 2006, con el resultado de una enorme mejora de 
aptitudes en los programas informáticos de go. Pero estos programas 
seguían sin poder vencer a los mejores jugadores humanos. Uno de los 
problemas era que para generar estadísticas suficientes a partir de los 
lanzamientos puede hacer falta mucho tiempo, sobre todo en go, con su 
inmensa cantidad de jugadas posibles. El grupo DeepMind se dio cuenta de 
que podía mejorar su sistema si completaba la búsqueda de árbol de Monte 
Carlo con una red neuronal convolucional profunda. Si se utiliza la posición 
actual del tablero como información de entrada, AlphaGo utiliza una red 
neuronal convolucional profunda entrenada para asignar un valor 
aproximado a todas las jugadas posibles desde la posición actual. Después, 
la búsqueda de árbol de Monte Carlo usa esos valores para iniciar su 
búsqueda: en vez de empezar escogiendo las jugadas al azar, utiliza los 
valores emitidos por la ConvNet como indicador de qué jugadas iniciales 
son preferibles. Imaginemos que AlphaGo es una persona que mira una 
posición del tablero: antes de empezar el proceso de Monte Carlo de hacer 
lanzamientos desde esa posición, la ConvNet le susurra al oído qué posibles 
jugadas desde la posición actual tienen probabilidades de ser las mejores. 

A la inversa, los resultados de la búsqueda de árbol de Monte Carlo 
sirven para entrenar la ConvNet. Imaginemos a esa persona que es AlphaGo 
después de una búsqueda de árbol de Monte Carlo. Los resultados de su 
búsqueda son nuevas probabilidades asignadas a todas las posibles jugadas, 
basadas en cuántas veces han desembocado esas jugadas en victorias O 
derrotas durante los lanzamientos realizados. Esas nuevas probabilidades se 
utilizan para corregir mediante retropropagación los valores de salida de la 
ConvNet. Después, esa persona y su rival deciden sus jugadas, que 
producen una nueva posición en el tablero, y el proceso continúa. En teoría, 
la red neuronal convolucional aprenderá a reconocer patrones, igual que 


hacen los maestros de go. Con el tiempo, la ConvNet desempeñará el papel 
de «intuición» del programa, que mejora todavía más gracias a la búsqueda 
de árbol de Monte Carlo. 

Igual que su antecesor, el programa de damas de Samuel, AlphaGo 
aprende jugando contra sí mismo durante muchas partidas (alrededor de 
cinco millones). Durante su entrenamiento, los pesos de la red neuronal 
convolucional se actualizan después de cada jugada basándose en la 
diferencia entre los valores de salida de la red y los valores mejorados 
después de ejecutar la búsqueda de árbol de Monte Carlo. Entonces, cuando 
llega el momento de que AlphaGo juegue, por ejemplo, contra un humano 
como Lee Sedol, la ConvNet entrenada se utiliza en cada turno para generar 
valores que ayuden a iniciar esa búsqueda de árbol de Monte Carlo. 

Con su proyecto AlphaGo, DeepMind demostró que uno de los grandes 
obstáculos históricos de la IA podía superarse mediante una ingeniosa 
combinación de aprendizaje por refuerzo, redes neuronales convolucionales 
y búsqueda de árbol de Monte Carlo (y añadiendo a la mezcla potentes 
equipos informáticos modernos). Como consecuencia, AlphaGo ha 
alcanzado un merecido lugar en el panteón de la IA. Pero ¿qué será lo 
próximo? ¿Se generalizará esta potente combinación de métodos más allá 
del mundo de los juegos? Esta es la pregunta que trataré en el próximo 
capítulo. 
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Más allá 
de los juegos 


Es la última década, el aprendizaje por refuerzo ha pasado de ser una rama 
relativamente desconocida de la IA a ser uno de los enfoques más 
apasionantes (y financiados) de este campo. El resurgimiento del 
aprendizaje por refuerzo, sobre todo a efectos del público, se debe en gran 
parte a los proyectos de DeepMind que he descrito en el capítulo anterior. 
Los resultados de DeepMind en los juegos de Atari y en go son realmente 
extraordinarios, importantes y dignos de elogio. 

Sin embargo, el desarrollo de programas de juego sobrehumanos no es el 
verdadero objetivo de la mayoría de los investigadores de IA. Vamos a 
desviarnos un poco para preguntarnos por las consecuencias que tienen 
estos éxitos en el progreso general de la IA. Demis Hassabis tiene algo que 
decir al respecto: 

Los juegos no son más que nuestra plataforma de desarrollo. [...] Son la forma más rápida de 

desarrollar estos algoritmos de IA y probarlos, pero en última instancia queremos que se 

utilicen en problemas del mundo real y tengan una enorme repercusión en ámbitos como la 


sanidad y la ciencia. Lo importante es que es una IA general que está aprendiendo a hacer 
cosas [basándose en] su propia experiencia y sus propios datos.[210] 


Vamos a profundizar un poco en ello. ¿Hasta qué punto es general esta IA? 
¿Hasta qué punto se puede utilizar en el mundo real, más allá de los juegos? 


¿Hasta qué punto aprenden estos sistemas «por sí solos»? ¿Y qué es 
exactamente lo que aprenden? 


Generalidad y «aprendizaje por transferencia» 


Mientras navegaba en busca de artículos sobre AlphaGo, internet me 
ofreció este llamativo titular: «AlphaGo de DeepMind aprendió ajedrez en 
su tiempo libre».[211] Esta frase es errónea y engañosa, y es importante 
entender por qué. AlphaGo (en todas sus versiones) solo puede jugar al go. 
Incluso en el caso de la versión más general, AlphaZero, no se trata de un 
único sistema que ha aprendido a jugar al go, al ajedrez y al shogi. Cada 
juego tiene su propia red neuronal convolucional que hay que entrenar 
desde cero para ese juego concreto. A diferencia de los humanos, ninguno 
de estos programas puede «transferir» nada de lo que ha aprendido sobre un 
juego para aprender otro diferente. 

Lo mismo ocurre con los distintos programas de juego de Atari: cada uno 
aprende desde cero los pesos de su propia red. Es como si aprendiéramos a 
jugar a Pong, pero luego para aprender a jugar a Breakout, tuviéramos que 
olvidar por completo todo lo que hemos aprendido jugando a Pong y 
empezar de cero. 

Una expresión optimista que se usa en el mundo del aprendizaje 
automático es «aprendizaje por transferencia», que se refiere a la capacidad 
de un programa de transferir lo que ha aprendido sobre una tarea para que le 
ayude a hacer otra distinta. En los seres humanos, el aprendizaje por 
transferencia es automático. Después de aprender a jugar al ping-pong, 
pude transferir algunas de esas habilidades para aprender a jugar al tenis y 
al bádminton. Saber jugar a las damas me ayudó a aprender a jugar al 
ajedrez. Cuando era pequeña, tardé un tiempo en aprender a girar el pomo 
de la puerta de mi habitación, pero, una vez adquirida esa habilidad, pude 
generalizarla rápidamente a casi cualquier tipo de pomo. 


Los humanos hacemos este tipo de transferencia de una tarea a otra de 
forma aparentemente fácil; nuestra capacidad para generalizar lo que 
aprendemos es una parte esencial de lo que para nosotros significa pensar. 
Por tanto, en lenguaje humano, podríamos decir que un sinónimo de 
«aprendizaje por transferencia» es sencillamente «aprender». 

Al contrario de lo que ocurre con los humanos, en la IA actual, la mayor 
parte del «aprendizaje» no se puede transferir entre tareas relacionadas. En 
este sentido, estamos todavía lejos de lo que Hassabis llama «IA general». 
Aunque el tema del aprendizaje por transferencia es uno de los campos de 
investigación más activos para los profesionales del aprendizaje automático, 
los avances en este frente son todavía incipientes.[212] 


«Sin ejemplos ni orientación de humanos» 


A diferencia del aprendizaje supervisado, el aprendizaje por refuerzo 
promete programas capaces de aprender de verdad por sí solos, 
simplemente llevando a cabo acciones en su «entorno» y observando el 
resultado. La afirmación más importante de DeepMind sobre sus resultados, 
especialmente con AlphaGo, es que su trabajo ha hecho realidad esa 
promesa: «Nuestros resultados demuestran sin lugar a dudas que la 
estrategia pura del aprendizaje por refuerzo es totalmente viable, incluso en 
los terrenos más difíciles: es posible entrenar a un nivel sobrehumano, sin 
ejemplos ni orientación de humanos y sin ningún conocimiento del terreno 
aparte de las reglas básicas».[213] 

Ya tenemos la afirmación. Ahora veamos las reservas. AlphaGo (o más 
exactamente, la versión AlphaGo Zero) no utilizó ningún ejemplo humano 
en su aprendizaje, pero lo de la «orientación» humana es otra historia. Hubo 
unos cuantos aspectos de orientación humana que fueron fundamentales 
para su éxito: la arquitectura específica de su red neuronal convolucional, el 
uso de la búsqueda de árbol de Monte Carlo y la configuración de los 
numerosos hiperparámetros que estas dos cosas implican. Como ha 


señalado el psicólogo e investigador de IA Gary Marcus, AlphaGo «no 
aprendió» ninguno de estos aspectos cruciales «de los datos, mediante puro 
aprendizaje de refuerzo. Más bien, los programadores de DeepMind los 
integraron de forma innata».[214] En realidad, los programas de DeepMind 
para los juegos de Atari eran mejores ejemplos de «aprendizaje sin 
orientación humana» que AlphaGo, porque a ellos no se les proporcionaban 
las reglas del juego (por ejemplo, que el objetivo en Breakout es destruir 
ladrillos) ni tampoco una idea de los «objetos» relevantes para el juego (por 
ejemplo, la pala o la pelota), sino que aprendían exclusivamente de los 
píxeles de la pantalla. 


Los terrenos más complicados 


Es necesario explorar otro aspecto de la afirmación de DeepMind: «incluso 
en los terrenos más difíciles». ¿Cómo podemos evaluar lo difícil que es un 
terreno para la IA? Como hemos visto, muchas cosas que los humanos 
consideramos bastante fáciles (por ejemplo, describir el contenido de una 
foto) son muy complicadas para los ordenadores. Y, al contrario, muchas 
cosas que a los humanos nos parecerían horrorosamente difíciles (por 
ejemplo, multiplicar correctamente dos números de cincuenta cifras) las 
hacen los ordenadores en una fracción de segundo con un programa de una 
sola línea. 

Una forma de evaluar lo difícil que es un terreno para los ordenadores es 
ver lo bien que se desenvuelven en él algoritmos muy sencillos. En 2018, 
un grupo de investigadores de Uber AI Labs descubrió que algunos 
algoritmos relativamente sencillos eran casi equiparables (y a veces 
superiores) al método de aprendizaje Q profundo de DeepMind en varios 
videojuegos de Atari. El algoritmo que más sorprendió por sus buenos 
resultados fue el de «búsqueda aleatoria»: en lugar de entrenar una red Q 
profunda mediante aprendizaje por refuerzo durante muchos episodios, es 
posible probar muchas redes neuronales convolucionales diferentes con 


pesos elegidos al azar.[215] Es decir, no hay ningún tipo de aprendizaje, 
excepto a través de un sistema aleatorio de prueba y error. 

Podría parecer que una red con pesos aleatorios tendría unos resultados 
horribles en un videojuego de Atari. De hecho, la mayoría de estas redes 
son pésimas jugadoras. Pero los investigadores de Uber siguieron probando 
nuevas redes con pesos aleatorios y, por fin (en menos tiempo del que se 
tarda en entrenar una red Q profunda), encontraron unas redes que 
funcionaban casi tan bien o incluso mejor que las redes entrenadas mediante 
aprendizaje Q profundo en cinco de los trece juegos que probaron. Otro 
algoritmo relativamente sencillo, llamado algoritmo genético,[216] superó al 
aprendizaje Q profundo en siete de trece juegos. Es difícil decir algo de 
estos resultados, salvo que quizá el ámbito de los juegos de Atari no es tan 
difícil para la IA como se pensaba en un principio. 

No he sabido de nadie que haya intentado una búsqueda aleatoria similar 
de pesos de red para go. Me sorprendería mucho que funcionara. Dada la 
larga historia de los intentos de crear programas informáticos para jugar al 
go, estoy convencida de que el go es un terreno auténticamente difícil para 
la IA. Sin embargo, como señaló Gary Marcus, los seres humanos juegan a 
muchos juegos que son aún más difíciles que el go para la IA. Un ejemplo 
notable que da Marcus es el de las charadas,[217] que, si lo pensamos bien, 
exige una compleja comprensión visual, lingiiistica y social que supera con 
mucho las capacidades de cualquier sistema de IA actual. Si pudiéramos 
construir un robot capaz de jugar a las charadas tan bien como, por ejemplo, 
un niño de seis años, creo que entonces podríamos afirmar sin temor a 
equivocarnos que hemos conquistado varios de los «terrenos más difíciles» 
para la IA. 


¿Qué aprendieron estos sistemas? 


Como sucede con otras aplicaciones del aprendizaje profundo, es difícil 
interpretar lo que las redes neuronales utilizadas en estos sistemas de juego 


han aprendido verdaderamente. Al leer las secciones anteriores, quizá hayan 
notado cómo se deslizaba cierto antropomorfismo sutil en mis 
descripciones; por ejemplo, he dicho: «El jugador de Breakout de 
DeepMind descubrió la estrategia de construir un túnel a través de los 
ladrillos». 

Es peligrosamente fácil, para mí y para cualquiera, caer en este tipo de 
lenguaje al hablar del comportamiento de los sistemas de IA. Sin embargo, 
incluye muchas veces suposiciones inconscientes que pueden no valer para 
estos programas. ¿El programa de Breakout de DeepMind descubrió 
verdaderamente el concepto de túnel? Gary Marcus nos recuerda que 
debemos tener cuidado con estas cosas: 

El sistema no ha aprendido nada de eso; no entiende realmente qué es un túnel ni qué es un 

muro; no ha aprendido más que contingencias concretas para situaciones concretas. Las 

pruebas de transferencia —en las que el sistema de aprendizaje por refuerzo profundo se 
encuentra con situaciones ligeramente distintas a las que utilizó para entrenarse— muestran 


que las soluciones del aprendizaje por refuerzo profundo son con frecuencia muy superficiales. 
[218] 


Marcus se está refiriendo a varios estudios que intentaron averiguar hasta 
qué punto los sistemas de aprendizaje Q profundo pueden transferir lo 
aprendido, incluso a versiones con mínimas variaciones del mismo juego. 
Por ejemplo, un grupo de investigadores estudió un sistema similar al 
programa de Breakout de DeepMind. Descubrieron que, cuando el 
programa se ha entrenado hasta un nivel «sobrehumano», si la posición de 
la pala en la pantalla se desplaza unos pocos píxeles hacia arriba, los 
resultados del sistema empeoran de golpe.[219 Esto hace pensar que el 
sistema ni siquiera ha aprendido el concepto básico de pala. Otro grupo 
demostró que, con un sistema de aprendizaje Q profundo entrenado en el 
juego Pong, si se cambia el color de fondo de la pantalla, el rendimiento del 
sistema disminuye de forma sustancial.[220] Además, en cada caso, el 
sistema necesita muchos episodios de reentrenamiento para adaptarse a la 
variación. 


Estos son solo dos ejemplos de la incapacidad del aprendizaje Q 
profundo para generalizar, que contrasta de forma llamativa con la 
inteligencia humana. No conozco ningún estudio que haya analizado el 
concepto de túnel en el programa de Breakout de DeepMind, pero me 
atrevo a suponer que el sistema no podría generalizar, por ejemplo, hacer un 
túnel hacia abajo o hacia los lados sin un reentrenamiento considerable. 
Como señala Marcus, aunque los humanos atribuimos al programa cierta 
comprensión de conceptos que consideramos básicos (por ejemplo, pared, 
techo, paleta, pelota, túnel), el programa, en realidad, no los entiende: 

Estas demostraciones dejan claro que es equívoco atribuir al aprendizaje por refuerzo profundo 

la inducción de conceptos como pared o pala; esas observaciones son lo que la psicología 

comparativa (animal) llama a veces sobreatribuciones. No es que el sistema Atari aprendiera 


realmente un concepto sólido de pared, sino que el sistema se aproximaba de forma superficial 
a atravesar paredes en unas circunstancias restringidas y muy entrenadas.[221] 


Del mismo modo, aunque AlphaGo exhibiera una «intuición» milagrosa al 
jugar al go, el sistema no tiene ningún mecanismo, que yo sepa, que le 
permita generalizar su capacidad para jugar al go —ni siquiera, por 
ejemplo, a un tablero de go más pequeño o de forma diferente— sin 
reestructurar y volver a entrenar su red Q profunda. 

En definitiva, aunque estos sistemas profundos de aprendizaje Q han 
logrado un rendimiento sobrehumano en algunas áreas concretas, e incluso 
muestran algo parecido a la «intuición» en esos terrenos, lo que no poseen 
es una cosa absolutamente fundamental para la inteligencia humana. Ya se 
lo llame abstracción, generalización a otros terrenos o aprendizaje por 
transferencia, conseguir que los sistemas tengan esa capacidad sigue siendo 
uno de los principales problemas pendientes de la IA. 

Hay otro motivo para sospechar que estos sistemas no están aprendiendo 
conceptos similares a los humanos ni entendiendo sus ámbitos de la misma 
forma que lo hacen los humanos: igual que los sistemas de aprendizaje 
supervisado, estos sistemas de aprendizaje Q profundos son vulnerables a 
ejemplos antagónicos como los que describí en el capítulo 6. Por ejemplo, 


un grupo de investigadores ha demostrado que es posible hacer cambios 
específicos muy pequeños en los píxeles de la entrada de un programa de 
juego de Atari, unos cambios imperceptibles para los humanos pero que 
disminuyen considerablemente la capacidad del programa para jugar. 


¿Cómo de inteligente es AlphaGo? 


Hay algo que debemos tener en cuenta cuando hablamos de juegos como el 
ajedrez y el go y su relación con la inteligencia humana. Pensemos en los 
motivos por los que muchos padres animan a sus hijos a apuntarse al club 
de ajedrez del colegio (o en algunos lugares al club de go) y prefieren 
verlos jugando al ajedrez (o al go) que sentados en casa viendo la televisión 
o jugando a videojuegos (lo siento, Atari). Es porque creen que los juegos 
como el ajedrez o el go enseñan a los niños (o a cualquiera) a pensar mejor: 
a pensar con lógica, a hacer razonamientos abstractos y a planificar de 
forma estratégica. Unas aptitudes que les ayudarán durante el resto de sus 
vidas, unas habilidades generales que cada persona podrá utilizar en todas 
sus actividades. 

En cambio, AlphaGo, a pesar de los millones de partidas que ha jugado 
durante su entrenamiento, no ha aprendido a «pensar» mejor sobre nada 
salvo sobre el juego del go. De hecho, no tiene capacidad para reflexionar 
sobre nada, para razonar sobre nada, para hacer planes sobre nada, salvo el 
go. Que yo sepa, ninguna de las habilidades que ha aprendido tiene nada de 
general; ninguna puede transferirse a ninguna otra tarea. AlphaGo es la 
perfecta representación del síndrome del sabio. 

Desde luego, el método de aprendizaje Q profundo utilizado en AlphaGo 
puede servir para aprender otras tareas, pero el sistema tendría que volver a 
hacer todo el entrenamiento; tendría que empezar básicamente desde cero 
para aprender una nueva habilidad. 

Esto nos lleva de nuevo a la paradoja de la IA de que «lo fácil es difícil». 
AlphaGo fue un gran triunfo para la IA; después de aprender en gran parte a 


base de jugar contra sí mismo, consiguió derrotar de forma contundente a 
uno de los mejores jugadores humanos del mundo en un juego que se 
considera un modelo de destreza intelectual. Pero AlphaGo no muestra una 
inteligencia de nivel humano tal como se suele definir, o incluso podría 
decirse que no muestra ningún tipo de inteligencia verdadera. Para los seres 
humanos, una parte crucial de la inteligencia es, más que poder aprender 
una habilidad concreta, ser capaces de aprender a pensar y después aplicar 
de forma flexible nuestro pensamiento a cualquier situación o escollo que 
nos encontremos. Esta es la verdadera aptitud que queremos que aprendan 
nuestros hijos cuando juegan al ajedrez o al go. Puede sonar extraño, pero, 
en este sentido, el niño más modesto del club de ajedrez del colegio es más 
inteligente que AlphaGo. 


De los juegos al mundo real 


Por último, consideremos la afirmación de Demis Hassabis de que el 
objetivo verdaderamente importante de estas demostraciones con juegos es 
«que se utilicen en problemas del mundo real y tengan una enorme 
repercusión en ámbitos como la sanidad y la ciencia». En mi opinión, es 
muy posible que el trabajo de DeepMind sobre el aprendizaje por refuerzo 
acabe teniendo esa repercusión que busca Hassabis. Pero de los juegos al 
mundo real hay mucho que recorrer. 

Un obstáculo es la necesidad de transferir el aprendizaje. Pero hay otros 
motivos por los que será difícil extender el éxito del aprendizaje por 
refuerzo en los juegos al mundo real. Los juegos como Breakout y el go son 
perfectos para el aprendizaje por refuerzo porque tienen unas reglas claras, 
unas funciones de recompensa sencillas (por ejemplo, recompensas por 
puntos ganados o por ganar) y relativamente pocas acciones (jugadas) 
posibles. Además, los jugadores tienen acceso a la «información perfecta»: 
tienen a la vista todos los elementos del juego en todo momento; no hay 
partes del «estado» de un jugador ocultas o inciertas. 


El mundo real no tiene unos límites tan claros. Douglas Hofstadter ha 
señalado que la propia noción de un «estado» claramente definido no es 
nada realista. «Si vemos las situaciones que se dan en el mundo, no están 
enmarcadas como una partida de ajedrez o de go... Una situación en el 
mundo no tiene ningún límite; no se sabe qué hay dentro ni qué hay fuera 
de la situación».[222] 

Por poner un ejemplo, imaginemos el uso del aprendizaje por refuerzo 
para enseñar a un robot a hacer una tarea muy útil en el mundo real: coger 
los platos sucios amontonados en el fregadero y meterlos en el lavavajillas. 
(Cuánta armonía traería un robot así a mi familia). ¿Cómo definir el 
«estado» del robot? ¿Habría que incluir todo lo que está en su campo 
visual? ¿El contenido del fregadero? ¿El contenido del lavavajillas? ¿Y el 
perro, que se acerca a lamer los platos y hay que decirle que se vaya? 
Independientemente de cómo defina su estado, el robot tendría que ser 
capaz de identificar distintos objetos: por ejemplo, un plato (que debe ir en 
la bandeja inferior del lavavajillas), una taza de café (que debe ir en la 
bandeja superior) o una esponja (que no hay que poner en el lavavajillas). 
Como hemos visto, el reconocimiento de objetos por ordenador todavía está 
muy lejos de ser perfecto. Además, el robot tendría que razonar sobre 
objetos que no puede ver, como quizá unas ollas y sartenes escondidas en el 
fondo del fregadero. También tendría que aprender a coger distintos objetos 
y colocarlos (con cuidado) cada uno en su sitio. Y para todo eso tendría que 
aprender a elegir entre una multitud de acciones posibles relacionadas con 
la colocación del cuerpo del robot, sus «dedos» para agarrar, los motores 
para controlar el movimiento de los objetos desde el fregadero hasta la 
ranura correcta del lavavajillas, y así sucesivamente.[223] 

Los agentes jugadores de DeepMind necesitaban millones de iteraciones 
de entrenamiento. Si no queremos millones de platos rotos, tendríamos que 
entrenar a nuestro robot con una simulación. Los juegos se pueden simular 
en un ordenador con gran rapidez y precisión; no hay piezas reales que se 


muevan ni pelotas que reboten en palas ni ladrillos que exploten. Pero una 
simulación en la que un robot meta platos en un lavavajillas no es tan fácil. 
Cuanto más realista es la simulación, más despacio la ejecuta el ordenador, 
e incluso con un ordenador muy rápido, es enormemente difícil incorporar 
exactamente a la simulación todas las fuerzas físicas y otros aspectos de la 
carga de platos. Y no hay que olvidarse del inoportuno perro y otros 
aspectos impredecibles del mundo real. ¿Cómo podemos saber qué hay que 
incluir en la simulación y qué se puede dejar fuera? 

Todos estos problemas llevaron a Andrej Karpathy, director de IA de 
Tesla, a señalar que para tareas del mundo real como esta, «básicamente se 
quiebran todos y cada uno de los supuestos que cumple el go y que 
aprovecha AlphaGo, y cualquier enfoque que pretendiera dar fruto tendría 
que ser muy diferente».[224] 

Nadie sabe cuál sería ese enfoque. En realidad, el campo del aprendizaje 
profundo por refuerzo es todavía bastante joven. Los resultados que he 
descrito en este capítulo pueden considerarse un principio de prueba: la 
combinación de las redes profundas y el aprendizaje Q funciona 
sorprendentemente bien en algunos terrenos muy interesantes, aunque 
limitados, y aunque mi exposición ha puesto de manifiesto algunas de las 
limitaciones actuales del campo, muchas personas están trabajando en 
ampliar el aprendizaje por refuerzo para aplicarlo de forma más general. 
Los programas de juego de DeepMind, en especial, han suscitado enorme 
interés y entusiasmo en este campo; de hecho, la revista Technology Review 
del MIT dijo que el aprendizaje profundo por refuerzo era una de «las diez 
tecnologías revolucionarias» de 2017. En los próximos años, a medida que 
se perfeccione el aprendizaje por refuerzo, esperaré con impaciencia a un 
robot que llene el lavavajillas y aprenda por sí solo, y quizá que juegue al 
fútbol y al go en su tiempo libre. 
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Dime con quién andas 
y te diré qué palabra eres 


Les voy a contar una anécdota. 
El restaurante 


Un hombre entró en un restaurante y pidió una hamburguesa poco hecha. Cuando esta llegó a 
la mesa, estaba completamente quemada. La camarera se acercó. «¿Está bien la carne?», le 
preguntó. «Está estupenda», dijo el hombre, mientras empujaba la silla hacia atrás y se iba 
del restaurante hecho una furia y sin pagar. La camarera le gritó: «Eh, ¿y la cuenta?». 
Después se encogió de hombros y murmuró: «¿Por qué se ha puesto así?».[225] 


Y ahora déjenme que les pregunte: ¿se comió la hamburguesa? 

Imagino que estarán bastante seguros de su respuesta, aunque la historia 
no explique directamente la cuestión. Es fácil, al menos para los seres 
humanos, leer entre líneas. Al fin y al cabo, comprender el lenguaje — 
incluidas las partes que quedan implícitas— es una parte fundamental de la 
inteligencia humana. No es casualidad que Alan Turing planteara su famoso 
«juego de imitación» como un concurso de generación y comprensión del 
lenguaje. 

Esta parte del libro trata del procesamiento del lenguaje natural, que 
significa «hacer que los ordenadores manejen el lenguaje humano». (En el 
lenguaje de la IA, natural significa «humano»). El procesamiento del 
lenguaje natural (PLN) incluye temas como el reconocimiento del habla, la 


búsqueda en internet, la respuesta automática a preguntas y la traducción 
automática. Igual que hemos visto en capítulos anteriores, el aprendizaje 
profundo ha sido el motor de la mayoría de los avances recientes en PLN. 
Describiré algunos de estos avances, y voy a usar la anécdota del 
«restaurante» para ilustrar algunos de los principales obstáculos que deben 
superar las máquinas a la hora de utilizar y comprender el lenguaje humano. 


La sutileza del lenguaje 


Supongamos que queremos crear un programa capaz de leer un fragmento y 
responder preguntas sobre él. Los sistemas de preguntas y respuestas son un 
tema central de la investigación actual en PLN, porque la gente quiere 
utilizar el lenguaje natural para interactuar con los ordenadores (por 
ejemplo, con Siri, Alexa, Google Now y otros «asistentes virtuales»). Sin 
embargo, para responder a preguntas sobre un texto como el de la historia 
del «restaurante», un programa necesitaría habilidades lingúísticas más 
complejas y un buen conocimiento de cómo funciona el mundo. 

¿Se comió el hombre la hamburguesa? Para responder a esta pregunta 
con certeza, un hipotético programa debería saber que las hamburguesas 
pertenecen a la categoría «alimentos» y que los alimentos se pueden comer. 
Debería saber que entrar en un restaurante y pedir una hamburguesa 
significa que uno piensa comérsela. Y que, en un restaurante, cuando llega 
lo que hemos pedido, se puede comer. El programa tendría que saber que 
cuando una persona pide una hamburguesa «poco hecha», en general no 
quiere comérsela si está «completamente quemada». Debería saber que 
cuando el hombre dice «Está buenísima», está siendo sarcástico, y que 
«está» se refiere a la «carne», que es otra forma de referirse a la 
«hamburguesa». El programa tendría que suponer que si uno sale «hecho 
una furia» de un restaurante sin pagar, es probable que no se haya comido lo 
que le han servido. 


Es abrumador pensar en todos los conocimientos previos que necesitaría 
el programa para responder con seguridad a preguntas básicas sobre la 
anécdota. ¿Dejó el hombre propina a la camarera? El programa tendría que 
conocer la costumbre de dejar propina en los restaurantes para recompensar 
un buen servicio. ¿Por qué dijo la camarera: «¿Y la cuenta?»? El programa 
tiene que averiguar que «cuenta», en este caso, no es, por ejemplo, una 
cuenta de collar ni una cuenta bancaria, sino lo que tiene que pagar el 
hombre por la comida. ¿Sabía la camarera que el hombre estaba enfadado? 
El programa tiene que saber que sí por la pregunta «¿Por qué se ha puesto 
así?». «Se» se refiere al hombre, y «se ha puesto asi» es un modismo que 
significa «se ha enfadado tanto». ¿Sabía la camarera por qué se fue el 
hombre del restaurante? Sería útil que nuestro programa supiera que el 
gesto de «encogerse de hombros» indica que la camarera no entendió por 
qué se había marchado hecho una furia. 

Pensar en lo que necesitaría saber nuestro hipotético programa me 
recuerda a tratar de responder a las interminables preguntas que me hacían 
mis hijos cuando eran muy pequeños. Una vez, cuando mi hijo tenía cuatro 
años, lo llevé conmigo al banco. Me preguntó sencillamente: «¿Qué es un 
banco?». La respuesta provocó una cascada aparentemente infinita de 
preguntas de «por qué». «¿Por qué usa dinero la gente?». «¿Por qué la gente 
quiere tener mucho dinero?». «¿Por qué la gente no puede guardar todo su 
dinero en casa?». «¿Por qué no puedo fabricar mi propio dinero?». Todas 
ellas buenas preguntas, pero difíciles de responder sin tener que explicar 
todo tipo de cosas que quedan fuera de la experiencia de un niño de cuatro 
años. 

En el caso de los ordenadores, la situación es mucho peor. Un niño que 
escucha la historia del «restaurante» ya posee algunos conceptos sólidos, 
como persona, mesa y hamburguesa. Los niños tienen un sentido común 
básico y saben, por ejemplo, que cuando el hombre sale del restaurante ya 
no está dentro de él, pero las mesas y las sillas probablemente siguen allí. O 


que cuando la hamburguesa «llegó», alguien la llevó a su mesa (no llegó 
sola). Las máquinas actuales mo dominan los conceptos detallados e 
interrelacionados, y carecen de los conocimientos de sentido común que 
hasta un niño de cuatro años aporta a la comprensión del lenguaje. 

No es de extrañar, por tanto, que utilizar y comprender el lenguaje natural 
sea uno de los retos más difíciles de la IA. El lenguaje es intrínsecamente 
ambiguo, depende en gran medida del contexto y presupone una gran 
cantidad de conocimientos previos que los interlocutores tienen en común. 
Al igual que en otras áreas de la IA, las primeras décadas de investigación 
sobre PLN se dedicaron a métodos basados en reglas simbólicas, es decir, 
programas que recibían reglas gramaticales y lingúísticas y las aplicaban a 
las frases de entrada. Esos métodos no dieron grandes frutos; parece 
imposible captar las sutilezas del lenguaje aplicando un conjunto de reglas 
explícitas. En los años noventa, los métodos de PLN basados en reglas se 
vieron eclipsados por otros estadísticos que conseguían mejores resultados, 
en los que se empleaban inmensos conjuntos de datos para entrenar 
algoritmos de aprendizaje automático. En tiempos más recientes, este 
método basado en datos estadísticos se ha centrado en el aprendizaje 
profundo. ¿Puede el aprendizaje profundo, unido a los macrodatos, producir 
ordenadores capaces de manejar el lenguaje humano de forma flexible y 
fiable? 


El reconocimiento de voz y el último 10 por 
ciento 


El reconocimiento automático del habla —la tarea de convertir el lenguaje 
hablado en texto sobre la marcha— fue el primer gran éxito del aprendizaje 
profundo en PLN, y me atrevería a decir que es el mayor éxito de la IA 
hasta hoy en cualquier ámbito. En 2012, al mismo tiempo que el 
aprendizaje profundo revolucionaba la visión por ordenador, unos grupos de 
investigación de la Universidad de Toronto, Microsoft, Google e IBM 


publicaron un histórico artículo sobre el reconocimiento del habla.[226] 
Estos grupos habían estado desarrollando redes neuronales profundas para 
diversos aspectos del reconocimiento del habla: reconocimiento de fonemas 
a partir de señales acústicas, predicción de palabras a partir de 
combinaciones de fonemas, predicción de frases a partir de combinaciones 
de palabras, y así sucesivamente. Según un experto de Google en 
reconocimiento del habla, el uso de redes profundas supuso «la principal 
mejora en veinte años de investigación sobre el habla».[227] Ese mismo año, 
se puso a disposición de los poseedores de móviles con sistema Android un 
nuevo sistema de reconocimiento de voz mediante redes profundas; dos 
años más tarde se puso en marcha para el iPhone de Apple, y un ingeniero 
de la compañía comentó: «Fue una de esas cosas en las que la mejora [de 
las prestaciones] era tan sustancial que uno lo vuelve a comprobar para 
asegurarse de que no hay alguien a quien se le ha olvidado un decimal».[228] 

Quien haya utilizado algún tipo de tecnología de reconocimiento de voz 
antes y después de 2012 también habrá notado la gran mejora. El 
reconocimiento de voz, que hasta 2012 era entre terriblemente frustrante y 
moderadamente útil, de repente se volvió casi perfecto en algunas 
circunstancias. Hoy puedo dictar todos mis mensajes de texto y correos 
electrónicos en la aplicación de reconocimiento de voz de mi teléfono; hace 
unos momentos, le he leído la historia del «restaurante», hablando a 
velocidad normal, y ha transcrito correctamente todas las palabras. 

Lo que me resulta asombroso es que los sistemas de reconocimiento de 
voz hagan todo eso sin comprender el significado de lo que están 
transcribiendo. El sistema de reconocimiento de voz de mi teléfono puede 
transcribir cada palabra de mi anécdota del restaurante, pero les garantizo 
que no entiende nada de ella, ni de ninguna otra cosa. Muchos expertos en 
inteligencia artificial, entre los que me incluyo, habíamos creído que el 
reconocimiento de voz nunca alcanzaría este nivel sin comprender el 
lenguaje. Pero se ha visto que estábamos equivocados. 


Dicho esto, el reconocimiento automatizado del habla aún no está al 
«nivel humano», en contra de lo que afirman algunos medios de 
comunicación. El ruido de fondo puede reducir considerablemente la 
precisión de estos sistemas; son mucho menos eficaces dentro de un coche 
en marcha que en una habitación en silencio. Además, en ocasiones, las 
palabras o frases poco habituales los desconciertan, lo que pone en 
evidencia que no comprenden lo que están transcribiendo. Por ejemplo, si 
digo «la mousse es mi postre favorito», mi teléfono (Android) lo transcribe 
«el mus es mi postre favorito». Digo: «El hombre con la cabeza despejada 
necesitaba un sombrero» y el teléfono lo transcribe como «El hombre con la 
cabeza despellejada necesitaba un sombrero». No es difícil encontrar frases 
que confundan a un sistema de reconocimiento del habla. Sin embargo, con 
el habla cotidiana en un entorno tranquilo, yo diría que la precisión de estos 
sistemas —-medida por el número de palabras correctamente transcritas— 
es probablemente de entre el 90 y el 95 por ciento de la precisión humana. 
[229] Si se añaden ruido u otras complicaciones, el acierto disminuye de 
forma considerable. 

Hay una famosa regla general en cualquier proyecto complejo de 
ingeniería: el primer 90 por ciento del proyecto ocupa el 10 por ciento del 
tiempo, y el último 10 por ciento ocupa el 90 por ciento del tiempo. Creo 
que esta regla, en una u otra versión, vale para muchos ámbitos de la IA (los 
coches autónomos, por ejemplo), y acabará valiendo también para el 
reconocimiento del habla. El último 10 por ciento incluye abordar no solo 
los problemas del ruido, los acentos extraños y las palabras desconocidas, 
sino también el hecho de que la ambigiiedad y la sensibilidad del lenguaje 
al contexto pueden afectar a su interpretación. ¿Qué hace falta para superar 
ese último y terco 10 por ciento? ¿Más datos? ¿Más capas de red? ¿O —me 
atrevo a preguntar— ese último 10 por ciento exigirá comprender realmente 
lo que está diciendo la persona que habla? Me inclino por esto último, pero 
no sería la primera vez que me equivoco. 


Los sistemas de reconocimiento del habla son bastante complicados; se 
necesitan varios tipos de procesamiento para pasar de ondas de sonido a 
frases. Los sistemas de reconocimiento del habla más avanzados en la 
actualidad integran distintos componentes; entre otros, varias redes 
neuronales profundas.[230] Otras tareas de PLN, como la traducción de 
idiomas O la respuesta a preguntas, parecen a primera vista más sencillas: 
tanto los datos de entrada como los de salida son palabras. Sin embargo, el 
método del aprendizaje profundo a partir de los datos no ha permitido 
avanzar tanto en estas áreas como en el reconocimiento del habla. ¿Por qué? 
Para responder, veamos algunos ejemplos de cómo se ha aplicado el 
aprendizaje profundo a tareas importantes de PLN. 


La clasificación de sentimientos 


Como primer ejemplo, veamos el área denominada clasificación de 
sentimientos. Consideremos estas breves reseñas de la película Indiana 
Jones y el templo maldito:|231] 


«La trama es plúmbea y el sentido del humor se ha perdido». 
«Un poco demasiado oscura para mi gusto». 


«Parece como si los productores hubieran intentado hacerla lo más perturbadora y terrorífica 
posible». 


«El desarrollo de los personajes y el humor de El templo maldito son muy mediocres». 
«El tono es un poco raro y tiene mucho humor que a mí no me ha hecho gracia». 


«No tiene nada del encanto y el ingenio de las otras de esta serie». 


¿Le gustó la película al autor de cada reseña? 

Hay mucho dinero invertido en utilizar ordenadores para responder a esa 
pregunta. Un sistema de IA capaz de clasificar con precisión una frase (o un 
pasaje más largo) con arreglo a los sentimientos que expresa —positivos, 
negativos u otro tipo de opinión— sería oro macizo para las empresas 


deseosas de analizar los comentarios de los clientes sobre sus productos, 
encontrar nuevos clientes potenciales, automatizar recomendaciones de 
productos («a la gente a la que le gustó X también le gusta Y») o dirigir sus 
anuncios por internet a públicos seleccionados. Los datos sobre las 
películas, los libros y otros productos que gustan o no a una persona pueden 
ser sorprendentemente (y tal vez alarmantemente) útiles para predecir sus 
compras futuras. Es más, esa información puede ayudar a hacer 
predicciones sobre otros aspectos de la vida de una persona, como sus 
probables patrones de voto y su receptividad a determinados tipos de 
noticias o anuncios políticos.[232] Además, ha habido varios intentos, con 
éxito variable, de utilizar la «extracción de sentimientos» de, por ejemplo, 
tuits relacionados con la economía, para predecir los precios de las acciones 
y los resultados electorales. 

Dejando al margen el aspecto ético de estas aplicaciones para analizar 
sentimientos, vamos a centrarnos en cómo podrían los sistemas de IA ser 
capaces de clasificar los sentimientos expresados en frases como las 
anteriores. Para un humano es bastante fácil ver que estas minirreseñas son 
todas negativas, pero conseguir que un programa haga este tipo de 
clasificación de forma general es mucho más difícil de lo que podría 
parecer a primera vista. 

Algunos de los primeros sistemas de PLN buscaban la presencia de 
palabras sueltas o secuencias cortas de palabras para detectar los 
sentimientos de un texto. Por ejemplo, en las críticas de cine, palabras como 
oscuro, raro, plúmbeo, perturbador, horrible, carente y perder, o 
secuencias como «no me hizo gracia», «no tiene nada», «un poco 
demasiado», indican un sentimiento negativo. En algunos casos es así, pero 
en muchos otros este tipo de secuencias también se pueden encontrar en 
críticas positivas. He aquí algunos ejemplos: 


«A pesar de lo plúmbeo del tema, hay humor suficiente para evitar que resulte demasiado 
oscuro». 


«Aquí no hay nada perturbador ni espantoso como algunos han dado a entender». 
«Yo era demasiado joven para ver esta magnífica película cuando se estrenó». 


«Si no la ves, tú te lo pierdes». 


En general, examinar palabras sueltas o secuencias cortas de forma aislada 
no basta para captar el sentimiento general; es necesario captar la semántica 
de las palabras en el contexto de toda la frase. 

Poco después de que las redes profundas empezaran a conseguir éxitos en 
la visión por ordenador y el reconocimiento del habla, los profesionales del 
PLN probaron a utilizarlas en el análisis de sentimientos. Como de 
costumbre, se trata de entrenar la red con muchos ejemplos etiquetados por 
humanos de frases que contienen sentimientos positivos y negativos, y 
hacer que la propia red aprenda características útiles que le permitan 
proponer con seguridad una clasificación de «positivo» o «negativo» en una 
nueva frase. Pero, antes de nada, ¿cómo podemos hacer que una red 
neuronal procese una frase? 


Redes neuronales recurrentes 


Para procesar una frase o un fragmento hace falta un tipo de red neuronal 
diferente de las que he descrito en capítulos anteriores. Recordemos, por 
ejemplo, la red neuronal convolucional del capítulo 4 que clasificaba una 
imagen como «perro» o «gato». En ese caso, los datos de entrada de la red 
eran las distintas intensidades de los píxeles en una imagen de tamaño fijo 
(las imágenes más grandes o más pequeñas tenían que modificarse para 
ajustarlas a la escala adecuada). En cambio, las frases están formadas por 
secuencias de palabras y no tienen una longitud fija. Por eso necesitamos 
que una red neuronal pueda procesar frases de longitud variable. 

La aplicación de redes neuronales a tareas con secuencias ordenadas, 
como las frases, se remonta a los años ochenta, cuando se introdujeron las 
redes neuronales recurrentes (RNN, por sus siglas en inglés), inspiradas, 


claro está, en las ideas sobre cómo interpreta secuencias el cerebro. 
Imaginemos que nos piden que leamos la opinión de que es «un poco 
demasiado oscura para mi gusto» y clasifiquemos el sentimiento que 
expresa como positivo o negativo. Leemos la frase de izquierda a derecha, 
palabra por palabra. A medida que la leemos, empezamos a tener una 
impresión de esos sentimientos, que se confirman al terminar. A esas 
alturas, nuestro cerebro tiene una especie de representación de la frase en 
forma de activaciones neuronales, que nos permiten afirmar con seguridad 
si la crítica es positiva o negativa. 

Las redes neuronales recurrentes se inspiran vagamente en este proceso 
secuencial de leer una frase y crear su representación en forma de 
activaciones neuronales. La figura 32 compara las estructuras de una red 
neuronal tradicional y una red neuronal recurrente. Para simplificar, cada 
red tiene dos unidades (círculos blancos) en la capa oculta y una unidad en 
la capa de salida. En las dos redes, la entrada tiene conexiones con las 
unidades ocultas, y cada unidad oculta tiene una conexión con la unidad de 
salida (flechas continuas). La diferencia fundamental de la RNN es que sus 
unidades ocultas tienen además unas conexiones «recurrentes»; cada unidad 
oculta tiene una conexión consigo misma y con la otra unidad oculta 
(flechas discontinuas). ¿Cómo funciona? A diferencia de una red neuronal 
tradicional, una RNN actúa en una serie de pasos temporales. En cada paso, 
la RNN recibe una entrada y calcula la activación de sus unidades ocultas y 
de salida, igual que hace una red neuronal tradicional. Pero en una RNN 
cada unidad oculta calcula su activación basándose tanto en la entrada como 
en las activaciones de las unidades ocultas del paso temporal anterior. (En el 
primer paso temporal, estos valores recurrentes se fijan en cero). Esto 
otorga a la red una forma de interpretar las palabras que «lee» mientras 
recuerda el contexto de lo que ya ha «leído». 
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Figura 32. A, ilustración de una red neuronal tradicional; B, ilustración de una red neuronal 
recurrente, en la que las activaciones de las unidades ocultas en un paso temporal dado se 
transmiten al siguiente paso temporal. 


La mejor forma de entender cómo funcionan las RNN es imaginar la 
actividad de la red a lo largo del tiempo, como en la figura 33 (en la página 
siguiente), que muestra la RNN de la figura 32 durante ocho pasos 
temporales. Para simplificar la ilustración, represento todas las conexiones 
recurrentes en la capa oculta como una única flecha discontinua de un paso 
temporal al siguiente. En cada paso temporal, la activación de las unidades 
ocultas es la codificación por parte de la red de la parte de la frase que ha 
visto hasta ese momento. La red va refinando esa codificación a medida que 
procesa las palabras. Después de la última palabra de la frase, recibe un 
símbolo especial de FIN (equivalente a un punto), que le indica que la frase 
ha terminado. Hay que tener en cuenta que los humanos añaden el símbolo 
FIN a cada frase antes de introducir el texto en la red. 
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Figura 33. La red neuronal recurrente de la figura 32, funcionando durante ocho pasos 
temporales. 


En cada paso temporal, la unidad de salida de esta red procesa las 
activaciones de las unidades ocultas (la «codificación») para dar a la red la 
seguridad de que la frase de entrada (es decir, la parte de la frase 
introducida en la red hasta ese paso temporal) tiene un sentimiento positivo. 
Al aplicar la red a una frase determinada, podemos ignorar esta información 
de salida hasta llegar al final de la frase. Entonces las unidades ocultas 
codifican toda la frase y la unidad de salida emite la seguridad definitiva de 
la red (en este caso, el 30 por ciento para el sentimiento positivo o, lo que es 
lo mismo, el 70 por ciento para el sentimiento negativo). 

Como la red solo deja de codificar la frase cuando se encuentra con el 
símbolo FIN, el sistema, en principio, puede codificar frases de cualquier 
longitud y convertirlas en un conjunto de números de longitud fija: las 
activaciones de las unidades ocultas. Por motivos evidentes, este tipo de red 
neuronal suele denominarse red codificadora. 

Con un conjunto de frases que los humanos han etiquetado como 
sentimientos «positivos» o «negativos», la red codificadora puede 
entrenarse a partir de estos ejemplos mediante retropropagación. Pero hay 
algo que aún no he explicado. Las redes neuronales requieren que sus 
entradas sean números.[233] ¿Cuál es la mejor manera de codificar las 
palabras de entrada como números? La respuesta a esta pregunta ha 


permitido uno de los avances más importantes de la última década en el 
procesamiento del lenguaje natural. 


Un método sencillo para codificar palabras como 
números 


Antes de explicar posibles métodos para codificar palabras en números, 
tengo que definir el concepto de vocabulario de una red neuronal. El 
vocabulario es el conjunto de todas las palabras que la red podrá aceptar 
como entradas. Los lingúistas calculan que un lector necesita entre diez mil 
y treinta mil palabras para abordar la mayoría de los textos en inglés, 
dependiendo de cómo se cuenten; por ejemplo, quizá se pueden agrupar las 
distintas formas de conjugación de un verbo como una sola palabra. El 
vocabulario también puede incluir términos habituales formados por dos 
palabras, como San Francisco o Golden Gate, y contarlos como una sola. 

Como ejemplo concreto, supongamos que nuestra red va a tener un 
vocabulario de veinte mil palabras. El método más sencillo para codificar 
las palabras como números consiste en asignar a Cada palabra del 
vocabulario un número arbitrario comprendido entre 1 y 20.000. Después 
damos a la red neuronal 20.000 entradas, una por cada palabra del 
vocabulario. En cada paso temporal, solo se «activará» una de esas 
entradas, la correspondiente a la palabra de entrada real. Por ejemplo, 
supongamos que a la palabra oscuro se le ha asignado el número 317. 
Entonces, si queremos introducir oscuro en la red, haremos que la entrada 
317 tenga el valor 1 y que las demás 19.999 entradas tengan el valor 0. En 
el campo del PLN, esto se denomina codificación en caliente: en cada paso 
temporal, solo una de las entradas —la que corresponde a la palabra que se 
introduce en la red— está «caliente» (no es un cero). 

La codificación en caliente era una forma habitual de introducir palabras 
en las redes neuronales. Pero tiene un inconveniente: una asignación 
arbitraria de números a las palabras no captura ninguna relación entre ellas. 


Supongamos que la red ha aprendido de sus datos de entrenamiento que la 
frase «Detesto esta película» expresa un sentimiento negativo. Supongamos 
ahora que la red recibe como entrada la frase «Aborrezco esta peli», pero no 
se ha encontrado con «aborrecer» ni con «peli» en sus datos de 
entrenamiento. La red no tiene forma de determinar que las dos frases 
quieren decir lo mismo. Supongamos además que la red ha aprendido que la 
frase «Me reí a carcajadas» está asociada a críticas positivas y que entonces 
se encuentra con una frase nueva: «Me gustó su humor». La red no sería 
Capaz de reconocer que las dos frases tienen significados cercanos (aunque 
no exactamente idénticos). La incapacidad de captar las relaciones 
semánticas entre palabras y frases es una de las principales razones por las 
que las redes neuronales que utilizan la codificación en caliente no suelen 
funcionar demasiado bien. 


El espacio semántico de las palabras 


Los investigadores en PLN han propuesto varios métodos para codificar las 
palabras de forma que capten esas relaciones semánticas. Todos los 
métodos se basan en la misma idea, maravillosamente expresada por el 
lingúista John Firth en 1957: «Dime con quién andas y te diré qué palabra 
eres».[234] Es decir, el significado de una palabra puede definirse en función 
de otras palabras con las que suele aparecer, de las palabras que suelen 
aparecer con esas palabras, y así sucesivamente. Aborrecer suele aparecer 
en los mismos contextos que detestar. Reírse suele juntarse con las mismas 
palabras que acompañan a humor. 
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Figura 34. A, ilustración de dos grupos de palabras en un espacio semántico en el que 
palabras con significados similares se encuentran cerca unas de otras; B, un espacio 
semántico tridimensional en el que las palabras se representan como puntos. 


En lingúística, esta idea recibe el nombre formal de semántica 
distribucional. La hipótesis básica de la semántica distribucional es que «el 
grado de similitud semántica entre dos expresiones lingiiisticas A y B es 
una función de la similitud de los contextos lingúísticos en los que A y B 
pueden aparecer».[235] Los lingüistas suelen concretarlo en la idea de un 
«espacio semántico». La figura 34A ilustra un espacio semántico 
bidimensional de palabras en el que las palabras con significados similares 
están situadas más cerca unas de otras. Pero enseguida se ve que, como las 
palabras pueden tener muchas dimensiones de significado, su espacio 
semántico también debe tener más dimensiones. Por ejemplo, la palabra 
charm, «encanto», está cerca de ingenio y humor, pero en un contexto 
diferente, charm es «colgante» y entonces está cerca de pulsera y joyas. Del 
mismo modo, la palabra brillante está al lado de los grupos luminoso y 
alegre, pero también tiene un significado alternativo (aunque relacionado) 
que la acerca a listo, inteligente y astuto. Sería útil tener una tercera 
dimensión que nos transmitiera la página y que situara estas palabras a la 
distancia justa unas de otras. En una dimensión, charm está cerca de 
ingenio, cuando es «encanto»; en otra, está cerca de pulsera. Pero encanto 


también debería estar cerca de suerte (mientras que pulsera no). 
Necesitamos más dimensiones. A los seres humanos nos cuesta 
imaginarnos un espacio de más de tres dimensiones, pero el espacio 
semántico de las palabras puede necesitar muchas docenas de dimensiones, 
si no cientos. 

Cuando hablamos de espacios semánticos con múltiples dimensiones, 
entramos en el ámbito de la geometría. De hecho, los profesionales del PLN 
suelen enmarcar el «significado» de las palabras en conceptos geométricos. 
Por ejemplo, la figura 34B muestra un espacio tridimensional, con ejes x, y 
y z, a lo largo del cual se pueden situar las palabras. Cada palabra se 
identifica con un punto (círculo negro), definido por tres coordenadas, es 
decir, las posiciones x, y y z del punto. La distancia semántica entre dos 
palabras se equipara a la distancia geométrica entre los puntos de este 
gráfico. Se puede ver que charm está cerca de ingenio y humor, y de 
pulsera y joyas, pero en dimensiones diferentes. En PLN, se utiliza el 
término vector de palabras para referirse a las coordenadas de una palabra 
concreta en ese espacio semántico. En matemáticas, vector no es más que 
una palabra sofisticada para referirse a las coordenadas de un punto.[236] 
Por ejemplo, supongamos que pulsera se encuentra en las coordenadas (2, 
0, 3); esta lista de tres números es su vector de palabras en este espacio 
tridimensional. Obsérvese que el número de dimensiones de un vector es 
simplemente el número de coordenadas. 

La idea es que después de que todas las palabras del vocabulario estén 
colocadas en el lugar debido del espacio semántico, el significado de una 
palabra puede representarse por su posición en este espacio, es decir, por las 
coordenadas que definen su vector de palabras. ¿Y para qué sirve un vector 
de palabras? Resulta que el uso de vectores de palabras como entradas 
numéricas para representarlas, en contraposición al método de esquema de 
codificación en caliente que he esbozado antes, mejora mucho el 
rendimiento de las redes neuronales en tareas de PLN. 


¿Cómo se obtienen todos los vectores correspondientes a las palabras de 
un vocabulario? ¿Existe un algoritmo que coloque correctamente todas las 
palabras del vocabulario de nuestra red en un espacio semántico para captar 
mejor las diversas dimensiones del significado de cada palabra? En PLN se 
ha trabajado mucho para resolver este problema. 


Word2vec 


Se han sugerido muchas soluciones para el problema de colocar palabras en 
un espacio geométrico, algunas ya desde los años ochenta, pero el método 
más generalizado en la actualidad lo propusieron unos investigadores de 
Google en 2013.[237] Llamaron a su método «word2vec» (la abreviatura de 
«de palabra a vector»). El método word2vec utiliza una red neuronal 
tradicional para aprender automáticamente vectores de palabras para todas 
las palabras de un vocabulario. Los investigadores de Google utilizaron 
parte del inmenso almacén de documentos de la empresa para entrenar su 
red; después de completado el entrenamiento, el grupo guardó y publicó 
todos los vectores de palabras obtenidos en una página web para que 
cualquiera pudiera descargarlos y utilizarlos como entrada para sistemas de 
procesamiento del lenguaje natural.[238] 

El método word2vec es la encarnación del «dime con quién andas y te 
diré qué palabra eres». Para crear los datos de entrenamiento del programa 
word2vec, el grupo de Google empezó por usar un enorme volumen de 
documentos del servicio Google News. (En el PLN moderno, no hay nada 
como un montón de «macrodatos»). Los datos de entrenamiento para el 
programa word2vec consistían en una colección de pares de palabras en los 
que cada palabra del par había aparecido cerca de la otra en algún sitio de 
los documentos de Google News. Para que el proceso fuera más eficaz, se 
descartaron palabras demasiado frecuentes como el, de e y. 

Como ejemplo concreto, supongamos que las palabras de cada par 
aparecen juntas en una frase. En este caso, la frase «un hombre entró en un 


restaurante y pidió una hamburguesa» se transformaría primero en «hombre 
entró en restaurante pidió hamburguesa». Así se obtendrían los siguientes 
pares: (hombre, entró), (entró, en), (en, restaurante), (restaurante, pidió), 
(pidió, hamburguesa), además de a la inversa: por ejemplo, (hamburguesa, 
pidió). Se trata de entrenar a la red word2vec para que prediga qué palabras 
es probable que se emparejen con una palabra de entrada dada. 

La figura 35 ilustra la red neuronal word2vec.[239] Esta red utiliza la 
codificación en caliente que he descrito antes. En la figura 35 hay 
setecientas mil unidades de entrada, lo que se aproxima al tamaño del 
vocabulario utilizado por los investigadores de Google. Cada entrada 
corresponde a una palabra del vocabulario. Por ejemplo, la entrada 1 
corresponde a la palabra gato, la 8.378 a hamburguesa y la 700.000 a 
cerúleo. Estos números me los acabo de inventar; el orden real no importa. 
Asimismo, hay setecientas mil unidades de salida, cada una correspondiente 
a una palabra del vocabulario, y una capa oculta relativamente pequeña de 
trescientas unidades. Las grandes flechas grises indican que cada entrada 
tiene una conexión ponderada con cada unidad oculta, y que cada unidad 
oculta tiene una conexión ponderada con cada unidad de salida. 

Los investigadores de Google entrenaron su red con miles de millones de 
pares de palabras recogidos en artículos de Google News. Dado un par de 
palabras como (hamburguesa, pidió), la entrada correspondiente a la 
primera palabra del par (hamburguesa) se establece en uno; todas las demás 
entradas se establecen en cero. Durante el entrenamiento, la activación de 
Cada unidad de salida se interpreta como la seguridad de la red en que la 
palabra correspondiente del vocabulario ha aparecido junto a la palabra de 
entrada. En este caso, las activaciones de salida correctas asignarían una 
seguridad alta a la segunda palabra del par (pidió). 
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Figura 35. Ilustración de la red neuronal word2vec, dado el par de palabras (hamburguesa, 
pidió). 


Una vez completado el entrenamiento, se puede extrapolar el vector de 
palabras aprendido a cualquier palabra del vocabulario. La figura 36 (en la 
página siguiente) ilustra cómo hacerlo. Se ven las conexiones ponderadas 
entre una entrada (correspondiente a la palabra hamburguesa) y las 
trescientas unidades ocultas. Estos pesos, que se han aprendido a partir de 
los datos de entrenamiento, han adquirido información sobre los contextos 
en los que se utiliza la palabra correspondiente. Los trescientos valores de 
ponderación son los componentes del vector de palabras asignado a la 
palabra dada. (En este proceso no se tienen en cuenta en absoluto las 
conexiones entre las unidades ocultas y las salidas; toda la información 
necesaria está en los pesos de la conexión entre la capa de entrada y la 
oculta). De modo que los vectores de palabras aprendidos por esta red 
tienen trescientas dimensiones. La colección de vectores de palabras para 


todas las palabras del vocabulario constituye el «espacio semántico» 
aprendido. 
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Figura 36. Ilustración de cómo obtener un vector de palabras a partir de la red word2vec 
entrenada. 


Podemos imaginar este espacio semántico tridimensional así. Pensemos 
en el gráfico tridimensional de la figura 34 e intentemos imaginar un 
gráfico similar con cien veces más dimensiones y setecientas mil palabras 
representadas, cada una con trescientas coordenadas. Es broma. Es 
imposible imaginar algo así. 

¿Qué representan estas trescientas dimensiones? Si nosotros fuéramos 
criaturas tridimensionales con la capacidad mental de imaginar ese espacio, 
veríamos que cualquier palabra está cerca de otras palabras relacionadas en 
función de muchos significados. Por ejemplo, el vector de hamburguesa 
está cerca del vector de pidió, pero también está cerca de los vectores de 
carne, perrito caliente, vaca, comer, y así sucesivamente. Hamburguesa 
también está cerca de cena, aunque nunca haya aparecido en un par con 
ella; el motivo es que hamburguesa está cerca de palabras que también 
están cerca de cena en contextos similares. Si la red ve pares de palabras de 
las frases «Me comí una hamburguesa para comer» y «Devoré un perrito 
Caliente para cenar», y si comida y cena también aparecen juntas en otras 
frases de entrenamiento, el sistema puede aprender que hamburguesa y 
cena también deberían estar cerca. 


Recordemos que el objetivo de todo este proceso es encontrar una 
representación numérica —un vector— para cada palabra del vocabulario 
que capte algo de la semántica de la palabra. La hipótesis es que el uso de 
estos vectores de palabras producirá redes neuronales de alto rendimiento 
para tareas de procesamiento del lenguaje natural. ¿Pero hasta qué punto el 
«espacio semántico» creado por word2vec capta realmente la semántica de 
las palabras? 

Esta pregunta es difícil de responder, porque no podemos imaginar el 
espacio semántico tridimensional aprendido por word2vec. Pero sí podemos 
hacer algunas cosas para entrever ese espacio. El método más sencillo 
consiste en tomar una palabra determinada y encontrar las palabras que han 
acabado estando más cerca de ella en el espacio semántico a base de 
observar las distancias entre los vectores de palabras. Por ejemplo, una vez 
entrenada la red, las palabras más próximas a Francia son España, Bélgica, 
Países Bajos, Italia, Suiza, Luxemburgo, Portugal, Rusia, Alemania y 
Cataluña.[240] Al algoritmo word2vec no se le ha explicado el concepto de 
país o país europeo; se trata simplemente de las palabras que aparecen en 
los datos de entrenamiento en contextos similares a Francia, del mismo 
modo que hamburguesa y perrito caliente en mi ejemplo anterior. De 
hecho, si pido las palabras más parecidas a hamburguesa, la lista incluye 
burger, hamburguesa con queso, sándwich, perrito caliente, taco y patatas 
fritas.[241] 

También podemos examinar relaciones más complejas derivadas del 
entrenamiento de la red. Los investigadores de Google que crearon 
word2vec vieron que, en los vectores de palabras creados por su red, la 
distancia entre la palabra para un país y la palabra para la capital de ese país 
es aproximadamente la misma para muchos países. Se ve en la figura 37 (en 
la página siguiente), que muestra una representación bidimensional de estas 
distancias. Tampoco en este caso se introdujo en el sistema el concepto de 


capital de un país; estas relaciones surgieron simplemente del 
entrenamiento de la red con miles de millones de pares de palabras. 
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Figura 37. Representación bidimensional de las distancias entre los vectores de palabras de 
los países y los vectores de palabras de sus capitales. 


Este tipo de regularidad hizo pensar a muchos que word2vec podía 
«resolver» problemas de analogías como «Hombre es a mujer lo que rey es 
a ». Basta con tomar el vector de palabras para mujer, restar el 
vector de palabras para hombre y sumar el resultado al vector de palabras 
para rey.[242] Sí, es reina. En mis experimentos con una demostración de 
word2vec por internet,[243] este método produce muchas veces resultados 
muy buenos («Cena es a noche lo que desayuno es a mañana»), pero 
muchas otras veces son crípticos («Sediento es a bebida lo que cansado es a 
borracho») o no tienen sentido («Pez es a agua lo que pájaro es a boca de 
riego»). 

Estas propiedades de los vectores de palabras aprendidos son curiosas y 
demuestran que algunas relaciones se captan. ¿Pero ayudan a que los 
vectores de palabras sean útiles en general en las tareas de PLN? La 


respuesta parece ser un «sí» categórico. Hoy en día, prácticamente todos los 
sistemas de PLN utilizan vectores de palabras de un tipo u otro (word2vec 
no es más que una variante) para introducir palabras en el sistema. 

Hablando de analogías, aquí hay una: a una persona con un martillo, todo 
le parece un clavo; a un investigador de IA con una red neuronal, todo le 
parece un vector. A mucha gente se le ocurrió que el truco de word2vec se 
podía utilizar no solo con palabras, sino también con frases enteras. ¿Por 
qué no codificar una frase entera como un vector, del mismo modo que se 
codifican las palabras, utilizando en el entrenamiento pares de frases en 
lugar de pares de palabras? ¿No se captaría así la semántica mejor que con 
un simple conjunto de vectores de palabras? De hecho, varios grupos lo han 
intentado: un grupo de la Universidad de Toronto llamó a estas 
representaciones de frases «vectores de pensamiento».[244] Otros han 
experimentado con redes que codifican como vectores párrafos y 
documentos enteros, aunque con desigual éxito. Reducir toda la semántica a 
geometría es una idea atractiva para los investigadores de IA. «Creo que se 
puede capturar una idea mediante un vector», proclamó Geoffrey Hinton, de 
Google.[2451 Yann LeCun, de Facebook, se mostró de acuerdo: «[En 
Facebook AI Research] queremos incrustar el mundo en vectores de 
pensamiento. Lo llamamos World2Vec».[246] 

Una última nota sobre los vectores de palabras. Varios grupos han 
demostrado que estos vectores de palabras, como quizá era previsible, 
captan los sesgos intrínsecos de los datos lingüísticos que los generan.[247] 
Por ejemplo, en este problema de analogía: «Hombre es a mujer lo que 
programador informático es a ». Si se resuelve utilizando los 
vectores de palabras que proporciona Google, la respuesta es «ama de 
casa». El enunciado inverso, «Mujer es a hombre lo que programador 
informático es a », da «ingeniero mecánico». Y aquí hay otro: 
«Hombre es a genio lo que mujer es a ». Respuesta: «musa». ¿Y 
«Mujer es a genio lo que hombre es a »? Respuesta: «genios». 


Toma ya décadas de feminismo. No podemos culpar a los vectores de 
palabras; se limitan a captar el sexismo y otros sesgos de nuestro lenguaje, 
y nuestro lenguaje refleja los prejuicios de nuestra sociedad. Pero, por muy 
inocentes que sean, los vectores de palabras son un componente 
fundamental de todos los sistemas modernos de PLN, desde el 
reconocimiento de voz hasta la traducción de idiomas. Los sesgos en los 
vectores de palabras pueden deslizarse y generar sesgos inesperados y 
difíciles de predecir en aplicaciones de PLN muy utilizadas. Los 
especialistas en IA que investigan estos sesgos están empezando a 
comprender qué tipo de efectos sutiles pueden tener en los resultados que 
emiten los sistemas de PLN, y varios grupos están desarrollando algoritmos 
para «eliminar los sesgos» de los vectores.¡248] Eliminar los sesgos de los 
vectores de palabras es difícil, pero seguramente menos que la alternativa: 
eliminar los sesgos del lenguaje y la sociedad. 


[225] Mi historia del «restaurante» está inspirada en pequeñas historias similares creadas por 
Roger Schank y sus colegas en sus investigaciones sobre la comprensión del lenguaje natural (R. C. 
Schank y C. K. Riesbeck, Inside Computer Understanding: Five Programs Plus Miniatures, 
Hillsdale, N. J.: Lawrence Erlbaum Associates, 1981) y por John Searle en sus críticas a la IA (J. R. 
Searle, «Minds, Brains, and Programs», Behavioral and Brain Sciences 3, n.* 3 [1980], pp. 417-424). 

[226] G. Hinton et al., «Deep Neural Networks for Acoustic Modeling in Speech Recognition: The 
Shared Views of Four Research Groups», IEEE Signal Processing Magazine 29, n.* 6 (2012), pp. 82- 
97. 

[227] J. Dean, «Large Scale Deep Learning», diapositivas de la lección magistral, «Conference on 
Information and Knowledge Management (CIKM)», noviembre de 2014, consultado el 7 de 
diciembre de 2018, static.googleusercontent.com/media/research.google.com/en//people/jeff/CIKM- 
keynote-Nov2014.pdf. 

[228] S. Levy, «The ¡Brain Is Here, and It’s Already in Your Phone», Wired, 24 de agosto de 2016, 
www.wired.com/2016/08/an-exclusive-look-at-how-ai-and-machinelearning-work-at-apple. 

[229] En la literatura sobre reconocimiento del habla, la métrica mas utilizada para valorar el 
rendimiento es la «tasa de error de palabras» en grandes colecciones de segmentos cortos de audio. 
Aunque el rendimiento de los sistemas de reconocimiento del habla mas avanzados aplicado a estas 
colecciones esta al «nivel humano» o por encima de él, hay motivos para sostener que cuando se 
utilizan medidas mas realistas (por ejemplo, habla con ruido, con un acento, palabras altisonantes, 
lenguaje ambiguo), el reconocimiento del habla por parte de las maquinas sigue siendo muy inferior 


al de los humanos. Un buen resumen de algunos de estos argumentos se ofrece en A. Hannun, 
«Speech Recognition Is Not Solved», consultado el 7 de diciembre de 2018, awni.github.io/speech- 
recognition. 

[230] Hay una buena descripción, aunque técnica, del funcionamiento de los algoritmos modernos 
de reconocimiento del habla en J. H. L. Hansen y T. Hasan, «Speaker Recognition by Machines and 
Humans: A Tutorial Review», IEEE Signal Processing Magazine 32, n.° 6 (2015), pp. 74-99. 
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noticia de que una empresa de análisis de datos llamada Cambridge Analytica utilizó datos de 
decenas de millones de cuentas de Facebook para dirigir propaganda política de forma selectiva, 
probablemente utilizando métodos de clasificación de sentimientos, entre otras técnicas. 

[233] Recordemos (capítulo 2) que cada unidad de una red neuronal calcula una función 
matemática de la suma de sus entradas multiplicadas por sus pesos. Esto solo puede hacerse si las 
entradas son números. 

[234] J. Firth, «A Synopsis of Linguistic Theory, 1930-1955», en Studies in Linguistic Analysis, 
Oxford: Philological Society, 1957, pp. 1-32. 

[235] A. Lenci, «Distributional Semantics in Linguistic and Cognitive Research», Italian Journal 
of Linguistics 20, n.° 1 (2008), pp. 1-31. 

[236] En física, el término vector suele definirse como una entidad que tiene una magnitud y una 
dirección. Esta definición es equivalente a la que he dado en el texto: cualquier vector puede 
describirse particularmente mediante las coordenadas de un punto; la magnitud es la longitud de un 
segmento desde el origen hasta ese punto, mientras que la dirección es el ángulo que forma ese 
segmento con los ejes de coordenadas. 

[237] T. Mikolov et al., «Efficient Estimation of Word Representations in Vector Space», en 
Proceedings of the International Conference on Learning Representations (2013). 

[238] Word2vec, Google Code Archive, code.google.com/archive/p/word2vec/. Los vectores de 
palabras también se denominan incrustaciones de palabras. 

[239] Aquí estoy ilustrando una versión del método skip-gram (n-grama con saltos), que fue uno 
de los dos métodos propuestos en Mikolov et al., «Efficient Estimation of Word Representations in 
Vector Space». 

[240] Ibid. 

[241] He utilizado la demo word2vec en bionlp-www.utu.fi/wvdemo/ (con el modelo «English 
Google-News Negative300») para obtener estos resultados. 

[242] La idea es resolver x en el problema de aritmética vectorial hombre — mujer = = rey — x. 
Para sumar o restar dos vectores, basta con sumar o restar sus elementos correspondientes; por 
ejemplo, (3, 2, 4) - (1, 1, 1) = (2, 1, 3). 

[243] bionlp-www.utu.fi/wv_demo/. 

[244] R. Kiros et al., «Skip-Thought Vectors», en Advances in Neural Information Processing 
Systems 28 (2015), pp. 3294-302. 
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[246] Y. LeCun, «What's Wrong with Deep Learning?», diapositivas de conferencias, p. 77, 
consultado el 14 de diciembre de 2018, www.pamitc.org/cvpr15/files/lecun-20150610-cvpr- 
keynote.pdf. 

[247] Véase, por ejemplo, T. Bolukbasi et al., «Man Is to Computer Programmer as Woman Is to 
Homemaker? Debiasing Word Embeddings», en Advances in Neural Information Processing Systems 
29 (2016), pp. 4349-4357. 

[248] Véase, por ejemplo, J. Zhao et al., «Learning Gender-Neutral Word Embeddings», en 
Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (2018), 
pp. 4847-4853, y A. Sutton, T. Lansdall-Welfare y N. Cristianini, «Biased Embeddings from Wild 
Data: Measuring, Understanding, and Removing», en Proceedings of the International Symposium on 
Intelligent Data Analysis (2018), pp. 328-339. 
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La traducción como 
codificación y descodificación 


Si alguna vez han utilizado Google Translate o cualquier otro sistema 
moderno de traducción automática, sabrán que el sistema puede traducir un 
texto de un idioma a otro en una fracción de segundo. Lo que es aún más 
impresionante es que los sistemas de traducción en línea proporcionan estas 
traducciones en fracciones de segundo a gente de todo el mundo, 
veinticuatro horas al día, siete días a la semana, y casi todos pueden hacerlo 
con más de cien idiomas diferentes. Hace varios años, cuando mi familia y 
yo vivimos en Francia durante seis meses sabáticos, utilicé Google 
Translate para redactar correos electrónicos escrupulosamente diplomáticos 
a nuestra Casera francesa, que era muy formal, sobre un problema de 
humedades en la casa. Como mi francés no era ni mucho menos perfecto, 
Google Translate me ahorró horas de buscar palabras que no conocía, por 
no hablar de intentar recordar dónde van los acentos y de qué género es 
cada sustantivo. 

También usé Google Translate para interpretar las respuestas a menudo 
confusas de la casera, y, aunque las traducciones del programa me daban 
una idea bastante clara de lo que quería decir, el inglés que utilizaba estaba 
lleno de errores, grandes y pequeños. Todavía me estremezco cuando 
imagino lo que le parecerían a ella mis mensajes en francés. En 2016, 


Google lanzó un nuevo sistema de «traducción automática neuronal» que, 
según la empresa, ha logrado «las mayores mejoras en la traducción 
automática hasta la fecha»,[249] pero la calidad de los sistemas de 
traducción automática sigue siendo muy inferior a la de los buenos 
traductores humanos. 

Espoleada en parte por la Guerra Fria entre Estados Unidos y la Union 
Soviética, la traducción automática —sobre todo entre inglés y ruso— fue 
uno de los primeros proyectos de IA. En 1947, el matemático Warren 
Weaver promovió con entusiasmo los primeros métodos: «Es natural 
preguntarse si el problema de la traducción podría abordarse como un 
problema de criptografía. Cuando veo un artículo en ruso, digo: “Esto está 
escrito en inglés, pero está codificado con unos símbolos extraños. Voy a 
descodificarlo”».[250] Como es habitual en la IA, esa «descodificación» 
acabó siendo más difícil de lo que la gente esperaba en un principio. 

Al igual que ocurrió con otras investigaciones sobre IA en los primeros 
tiempos, los métodos originales de traducción automática se basaban en 
complicados conjuntos de reglas especificadas por el ser humano. Para 
traducir de una lengua de partida (por ejemplo, el inglés) a una de llegada 
(por ejemplo, el ruso), se le proporcionaba al sistema de traducción 
automática un conjunto de reglas sintácticas de ambas lenguas, así como las 
reglas de correspondencia entre estructuras sintácticas. Además, los 
programadores humanos creaban diccionarios para el sistema de traducción 
automática con equivalencias entre palabras (y frases sencillas). Como pasó 
con muchas otras iniciativas de IA simbólica, aunque estos métodos 
funcionaban bien en algunos casos concretos, eran bastante frágiles y 
sufrían todos los problemas del lenguaje natural que he expuesto antes. 

A partir de los años noventa empezó a dominar este terreno un nuevo 
método, denominado traducción automática estadística. Siguiendo la 
tendencia de la IA en aquella época, la traducción automática estadística se 
basaba en el aprendizaje a partir de datos, en lugar de que los humanos 


especificaran unas reglas. Los datos de entrenamiento consistían en grandes 
colecciones de pares de frases: la primera frase de cada par procedía de la 
lengua de partida, y la segunda era una traducción (creada por un humano) 
a la lengua de llegada. Estos pares de frases se extraían de documentos 
oficiales de países bilingües (por ejemplo, todos los documentos del 
Parlamento canadiense se elaboran en inglés y francés), transcripciones de 
Naciones Unidas, que se traducen a las seis lenguas oficiales de la ONU, y 
otros grandes conjuntos de documentos originales y traducidos. 

Los sistemas estadísticos de traducción automática de los años noventa y 
dos mil solían calcular grandes tablas de probabilidades que relacionaban 
frases en las lenguas de partida y de llegada. Cuando se proporcionaba al 
sistema una nueva frase en inglés —por ejemplo, «A man went into a 
restaurant»—, el sistema dividía la frase en «sintagmas» («A man went», 
«into a restaurant») y buscaba en sus tablas de probabilidades las mejores 
traducciones en la lengua de llegada. Estos sistemas tenían más pasos para 
asegurarse de que todos los sintagmas traducidos funcionaban juntos como 
oración, pero el motor principal de la traducción eran las probabilidades de 
los sintagmas aprendidos a partir de los datos de entrenamiento. Aunque los 
sistemas estadísticos de traducción automática apenas conocían la sintaxis 
de ninguno de los dos idiomas, en general estos métodos producían mejores 
traducciones que los primeros métodos basados en reglas. 

Google Translate —probablemente el programa de traducción automática 
más utilizado— empleó este tipo de métodos estadísticos de traducción 
automática desde su lanzamiento, en 2006, hasta 2016, cuando sus 
investigadores desarrollaron un método superior de traducción basado en el 
aprendizaje profundo y denominado traducción automática neuronal. Poco 
después, la traducción automática neuronal se adoptó en todos los 
programas de traducción automática de última generación. 


Codificador, te presento al descodificador 


En la figura 38 (en la página siguiente) se muestra un esbozo de lo que 
ocurre cuando se utiliza Google Translate (y otros programas actuales de 
traducción automática) para traducir del inglés al francés.[251] Es un sistema 
complicado y he simplificado muchos detalles, pero esta figura permite ver 
las ideas fundamentales.[252] 
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Activaciones procedentes 
de la red codificadora 


Figura 38. Esquema de un par de redes «codificador-descodificador» para la traducción de 
idiomas. Los rectángulos blancos representan las redes codificadora y descodificadora, que 
operan en pasos temporales sucesivos. Las palabras de entrada —por ejemplo, man— se 
convierten primero en vectores de palabras —por ejemplo, wordvec(man)— antes de pasar 
a la red. 


La mitad superior de la figura 38 muestra una red neuronal recurrente 
(una red codificadora), muy parecida a la que describí en el capítulo 
anterior. La frase en inglés «A man went into a restaurant» se codifica en 
siete pasos temporales. He usado rectángulos blancos para representar la red 
que codifica esta frase; un poco más adelante hablaré de cómo es la red 


dentro de los rectángulos. Durante la etapa de codificación, en cada paso 
temporal se introduce en la red una palabra de la frase en forma de vector 
de palabras como los que describí antes.[253] Las flechas discontinuas de un 
paso temporal al siguiente indican las conexiones recurrentes en la capa 
oculta. La red construye palabra a palabra una representación de la frase en 
inglés, codificada en la activación de sus unidades ocultas. 

En el último paso temporal, la red codificadora recibe el símbolo FIN y 
las activaciones de las unidades ocultas se convierten en la codificación de 
la frase. Estas activaciones definitivas de las unidades ocultas del 
codificador son los datos de entrada a una segunda red, descodificadora, 
que crea la versión traducida de la frase. La red descodificadora, ilustrada 
en la mitad inferior de la figura 38, no es más que otra red recurrente, pero 
en la que las salidas son números que representan las palabras que forman 
la frase traducida, cada una de las cuales se vuelve a introducir en la red en 
el siguiente paso temporal.[254] 

Hay que señalar que la frase francesa tiene siete palabras, mientras que la 
inglesa tiene seis. En teoría, este sistema codificador-descodificador puede 
traducir una frase de cualquier longitud a otra de cualquier otra longitud. 
[255] Sin embargo, cuando las frases son demasiado largas, la red 
codificadora acaba perdiendo información útil; es decir, en los pasos 
temporales más avanzados «olvida» partes anteriores importantes de la 
frase. Por ejemplo, veamos esta frase: 


Mi madre dice que el gato que voló con su hermana a Hawái el año antes de que empezaras en 
ese nuevo instituto está viviendo ahora con mi primo. 


¿Quién vive con mi primo? En algunos idiomas, la respuesta puede 
modificar la traducción de los verbos está y viviendo. A los humanos se les 
da bien procesar este tipo de frases enrevesadas, pero las redes neuronales 
recurrentes pueden perder el hilo con facilidad. Cuando la red intenta 
codificar toda la frase en una serie de activaciones de unidades ocultas, la 
cosa se embarulla. 


A finales de los años noventa, un grupo de investigación suizo propuso 
una solución: las unidades individuales de una red neuronal recurrente 
debían tener una estructura más complicada, con pesos especializados que 
determinaran qué información se transmite en el siguiente paso temporal y 
qué información puede «olvidarse». A las unidades más complejas las 
llamaron unidades de «memoria a corto plazo de larga duración» (LSTM, 
por sus siglas en inglés).[256] El nombre es confuso, pero la idea es que 
estas unidades permiten más memoria «a corto plazo» capaz de durar 
durante todo el procesamiento de la frase. Los pesos especializados se 
aprenden mediante retropropagación, al igual que los pesos normales de una 
red neuronal tradicional. Aunque la figura 38 muestra las redes 
codificadoras y descodificadoras de forma abstracta, como rectángulos 
blancos, en realidad estas redes están formadas por unidades de LSTM. 

La traducción automática en la era del aprendizaje profundo es un triunfo 
de los macrodatos y la rapidez de los ordenadores. Para crear dos redes 
codificadora-descodificadora que traduzcan, por ejemplo, del inglés al 
francés, las redes se entrenan con más de treinta millones de pares de frases 
traducidas por humanos. Las redes neuronales recurrentes profundas, 
formadas por unidades de LSTM y entrenadas con grandes conjuntos de 
datos, se han convertido en algo cotidiano en los sistemas modernos de 
procesamiento del lenguaje natural, no solo en las redes de codificación y 
descodificación utilizadas por Google Translate, sino también en el 
reconocimiento del habla, la clasificación de sentimientos y, como veremos 
más adelante, la respuesta a preguntas. Estos sistemas suelen incorporar 
varios trucos para mejorar su comportamiento, como introducir la frase 
original hacia delante y hacia atrás, y mecanismos para centrar la atención 
en distintas partes de la frase en diferentes pasos temporales.[257] 


Una evaluación de la traducción automática 


Cuando Google Translate puso en marcha su traducción automática 
neuronal en 2016, la empresa afirmó que el nuevo método estaba «salvando 
la distancia entre la traducción humana y la automática».[258] Otras grandes 
empresas tecnológicas se apresuraron a ponerse al día y crearon sus propios 
programas de traducción automática en línea, también basados en la 
arquitectura de codificador y descodificador que he descrito. Las empresas 
y los medios tecnológicos que informan sobre ellas se han mostrado muy 
entusiastas sobre estos servicios de traducción. La revista Technology 
Review del MIT informó de que «el nuevo servicio de Google traduce 
idiomas casi tan bien como los humanos».[259] Microsoft anunció en un 
comunicado de prensa que su servicio de traducción de noticias del chino al 
inglés había alcanzado «la paridad humana».[260] IBM declaró que «IBM 
Watson ya domina nueve idiomas (y suma y sigue)».[261] El directivo de 
Facebook responsable de la traducción de idiomas afirmó en un acto 
público: «Creemos que las redes neuronales están aprendiendo el 
significado semántico subyacente del idioma».[262] El director general de la 
empresa de traducción especializada DeepL presumió: «Nuestras redes 
neuronales [de traducción automática] han desarrollado un asombroso 
sentido de la comprensión».[263] 

En general, estas declaraciones están impulsadas en parte por la rivalidad 
entre las empresas tecnológicas para vender distintos servicios de IA a otras 
empresas, y la traducción de idiomas es una propuesta importante que 
puede aportar grandes beneficios. Si bien sitios web como Google Translate 
ofrecen traducción gratuita para textos breves, una empresa que quiera 
traducir un gran volumen de documentos o suministrar traducción a los 
clientes en su web puede encontrar muchos servicios de traducción 
automática de pago, todos basados en la misma arquitectura de codificador- 
descodificador. 

¿Hasta qué punto debemos creer las afirmaciones de que las máquinas 
están verdaderamente aprendiendo el «significado semántico» o de que la 


traducción automática se aproxima rápidamente a los niveles de precisión 
humana? Para responder a esta pregunta, vamos a analizar con detalle los 
resultados reales en los que se basan estas afirmaciones. En concreto, cómo 
miden estas empresas la calidad de una traducción automática o humana. 
Medir la calidad de una traducción no es nada fácil: hay muchas maneras de 
traducir bien un texto (y muchas más de traducirlo mal). Como no existe 
una única respuesta correcta para la traducción de un texto, es difícil diseñar 
un método automático para calcular la precisión del sistema. 

Las expresiones como «paridad humana» y «salvando la distancia entre 
las máquinas y los seres humanos» en la traducción automática parten de 
dos métodos de evaluación de las traducciones. El primero es un método 
automático —un programa informático— que compara la traducción de un 
ordenador con las de los humanos y emite una puntuación. El segundo 
método emplea a personas bilingiies para que evalúen manualmente las 
traducciones. En el primer método, el programa utilizado en casi todas las 
evaluaciones de traducción automática se llama bilingual evaluation 
understudy (sustituto de evaluación bilingüe) o BLEU.[264] Para medir la 
calidad de una traducción, BLEU cuenta el número de coincidencias entre 
palabras y frases de longitud variable en una frase traducida por la máquina 
y una o más traducciones «de referencia» (es decir, «correctas») hechas por 
humanos. Aunque las puntuaciones obtenidas por BLEU suelen estar en 
proporción con la valoración humana de la calidad de la traducción, BLEU 
tiende a sobrevalorar las malas traducciones. Varios investigadores sobre 
traducción automática me han dicho que BLEU no es un buen método para 
evaluar traducciones, y que se utiliza solo porque nadie ha encontrado 
todavía un método automático que funcione mejor en general. 

Dados los inconvenientes de BLEU, la referencia para evaluar un sistema 
de traducción automática es que personas bilingües califiquen de forma 
manual las traducciones generadas por el sistema. Esos mismos evaluadores 
humanos también pueden puntuar las traducciones correspondientes creadas 


por traductores humanos profesionales para compararlas con las 
puntuaciones de la traducción automática. Pero este método de referencia 
también tiene sus inconvenientes: contratar a personas cuesta dinero y, a 
diferencia de los ordenadores, los humanos se cansan cuando llevan más de 
unas decenas de frases calificadas. Por tanto, a menos que se pueda 
contratar a un ejército de evaluadores humanos bilingües con mucho tiempo 
por delante, el proceso de evaluación será limitado. 

Los grupos de traducción automática de Google y Microsoft llevaron a 
cabo este tipo de evaluación de referencia (aunque limitada) contratando a 
pequeños grupos de evaluadores humanos bilingiies para que dieran sus 
calificaciones.[265] A cada evaluador se le dio un conjunto de frases en una 
lengua de partida y las traducciones de esas frases en la lengua de llegada. 
Las traducciones las habían hecho tanto el sistema neuronal de traducción 
automática como traductores humanos profesionales. La evaluación de 
Google consistió en aproximadamente quinientas frases sacadas de noticias 
y artículos de Wikipedia en varios idiomas. Al promediar las puntuaciones 
de cada evaluador para todas las frases y después entre todos los 
evaluadores, los investigadores de Google descubrieron que la puntuación 
media otorgada a su sistema neuronal de traducción automática se 
aproximaba (aunque se quedaba por debajo) a las de las frases traducidas 
por humanos. Ocurrió lo mismo con todos los pares de idiomas de la 
evaluación. 

Microsoft utilizó un método similar de promedios para evaluar las 
traducciones de noticias del chino al inglés. Las calificaciones de las 
traducciones hechas por el sistema de traducción automática neuronal de la 
empresa se acercaron mucho (y a veces incluso superaron) a las de las 
traducciones humanas. En todos los casos, los evaluadores humanos dieron 
a las traducciones hechas mediante traducción automática neuronal mejores 
puntuaciones que a las de los métodos de traducción automática anteriores. 


En resumen, con la introducción del aprendizaje profundo, la traducción 
automática ha mejorado. ¿Pero podemos interpretar que estos resultados 
justifican la afirmación de que la traducción automática se acerca ya al 
«nivel humano»? Creo que esta frase no está justificada por varios motivos. 
En primer lugar, hacer una media de las puntuaciones puede ser engañoso. 
Imaginemos un caso en el que aunque la mayoría de las traducciones de 
frases se califican como «estupendas», hay muchas que se califican como 
«horribles». El promedio sería «bastante buenas». Sin embargo, 
seguramente preferiríamos un sistema de traducción más fiable, que fuera 
siempre «bastante bueno» y nunca «horrible». 

Además, las afirmaciones de que estos sistemas de traducción se acercan 
al «nivel humano» o a la «paridad humana» se basan exclusivamente en la 
evaluación de traducciones de frases sueltas y aisladas, no de pasajes más 
largos. Las frases de un pasaje más largo pueden depender unas de otras en 
aspectos importantes que quizá pasan inadvertidos si se traducen de forma 
aislada. No he visto ningún estudio formal sobre la evaluación de la 
traducción automática de pasajes más largos, pero mi experiencia general es 
que la calidad de la traducción de, por ejemplo, Google Translate disminuye 
de forma considerable cuando se le dan párrafos enteros en lugar de frases 
sueltas. 

Por último, todas las frases de estas evaluaciones proceden de noticias y 
páginas de Wikipedia, que suelen estar redactadas con cuidado de evitar el 
lenguaje ambiguo y los modismos; un tipo de lenguaje que puede causar 
graves problemas a los sistemas de traducción automática. 


Lo que se pierde en la traducción 


¿Recuerdan la historia del restaurante que conté al principio del capítulo 
anterior? No la pensé para probar sistemas de traducción, pero es un buen 
ejemplo para ilustrar los problemas que plantea el lenguaje coloquial, 
idiomático y quizá ambiguo a los sistemas de traducción automática. 


He usado Google Translate para traducir la historia del restaurante del 
inglés a tres idiomas de llegada: francés, italiano y chino. Entregué las 
traducciones resultantes (sin el texto original) a varios amigos que son 
bilingües en inglés y la otra lengua y les pedí que tradujeran la traducción 
que había hecho Google al inglés, para hacerme una idea de lo que un 
hablante de la lengua de llegada sacaría en limpio del texto traducido a esa 
lengua. Aquí están los resultados, para que los disfruten. (Las traducciones 
de Google Translate que mis amigos volvieron a traducir al inglés figuran 
en las notas al final del libro). La anécdota original (traducida al español) 
era: 

Un hombre entró en un restaurante y pidió una hamburguesa poco hecha. Cuando esta llegó a 

la mesa, estaba completamente quemada. La camarera se acercó. «¿Está bien la carne?», le 

preguntó. «Está estupenda», dijo el hombre, mientras empujaba la silla hacia atrás y se iba del 


restaurante hecho una furia y sin pagar. La camarera le gritó: «Eh, ¿y la cuenta?». Después se 
encogió de hombros y murmuró: «¿Por qué se ha puesto así?». 


Versión francesa de Google Translate, traducida por humanos al inglés (en 
su equivalente español): 


Un hombre entró en un restaurante y pidió una hamburguesa, cocinada con poca frecuencia. 
Cuando llegó, se quemó en un crocante. La camarera se detuvo frente a la mesa del hombre. 
«¿Se encuentra bien la hamburguesa?», preguntó. «Está buenísima», dijo el hombre mientras 
ponía la silla atrás y salía del restaurante sin pagar. La camarera le gritó: «Dígame, ¿qué le 
parece el proyecto de ley?». Después se encogió de hombros, mientras murmuraba: «¿Por qué 
está tan deforme?».[266], [267] 


Versión italiana de Google Translate, traducida por humanos al inglés (en su 
equivalente español): 


Un hombre fue a un restaurante y pidió una hamburguesa hecha escasa. Cuando llegó, estaba 
quemada por un guirlache. La camarera se detuvo cerca de la mesa del hombre. «¿Está bien la 
hamburguesa?», le preguntó. «Es sencillamente fantástica», dijo el hombre, mientras echaba 
hacia atrás la silla y salía del restaurante sin pagar. La camarera le gritó: «Eh, ¿y la cuenta?». 
Después se encogió de hombros y murmuró en voz baja: «¿Por qué está tan doblado?».[268] 


Versión china de Google Translate, traducida por humanos al inglés (en su 
equivalente español): 
Un hombre entró en un restaurante y pidió una hamburguesa poco habitual. Cuando llegó a su 
destino, estaba tostada, muy crujiente. La camarera se detuvo junto a la mesa del hombre. 
«¿Está buena la hamburguesa?», le preguntó. «Está buenísima», dijo el hombre, mientras 


apartaba la silla y salía corriendo del restaurante sin pagar. La camarera gritó: «Eh, ¿y la 
cuenta?». Después se encogió de hombros y susurró: «¿Por qué estaba tan encorvado?».[269] 


Leer estas traducciones es como escuchar una obra musical que conocemos 
bien interpretada por un pianista de talento pero propenso a cometer errores. 
La pieza se reconoce en general, pero tiene algunos destrozos incómodos; la 
melodía avanza de forma maravillosa durante breves instantes, pero hay 
notas discordantes y equivocadas que no dejan de interrumpirla. 

Como ven, Google Translate elige a veces el significado que no es de 
palabras ambiguas, como rare y bill (traducidas al francés como «poco 
frecuente» en vez de «poco hecha», y «proyecto de ley» en vez de 
«Cuenta», respectivamente); el motivo es que el programa ignora el 
contexto de palabras u oraciones anteriores. Frases hechas como «burn to a 
crips» (quemada) y «bent out of shape» (molesto) se traducen de forma 
extraña; parece que el programa no tiene forma de encontrar la expresión 
correspondiente en la lengua de llegada ni de captar su verdadero 
significado. Aunque el sentido de la anécdota se conserva, en todas las 
traducciones se pierden matices sutiles pero importantes, como el enfado 
del hombre, expresado en «salir hecho una furia del restaurante», y el 
descontento de la camarera, expresado en «murmurar». Y, por si fuera poco, 
la gramática correcta brilla a veces por su ausencia. 

No quiero criticar especialmente a Google Translate; he probado otros 
servicios de traducción en línea y los resultados son similares. No es 
extraño, porque todos estos sistemas utilizan prácticamente la misma 
arquitectura de codificador-descodificador. También es importante señalar 
que las traducciones que obtuve no son más que una instantánea de estos 
sistemas de traducción en el tiempo; están mejorándolos sin cesar y algunos 


de los errores de traducción concretos que aparecen aquí pueden estar 
corregidos para cuando estén leyendo este libro. No obstante, no creo que la 
traducción automática llegue a alcanzar el nivel de los traductores humanos 
—salvo en contadas circunstancias— hasta dentro de mucho tiempo. 

El principal obstáculo es el siguiente: al igual que los sistemas de 
reconocimiento del habla, los sistemas de traducción automática llevan a 
cabo su tarea sin comprender verdaderamente el texto que están 
procesando.[270] En la traducción, como en el reconocimiento del habla, la 
pregunta sigue siendo la misma: ¿hasta qué punto es necesaria esa 
«comprensión» para que las máquinas alcancen niveles humanos de 
rendimiento? Douglas Hofstadter sostiene: «La traducción es mucho más 
compleja que un mero buscar en el diccionario y reordenar las palabras. 
[...] Traducir implica tener un modelo mental del mundo del que se habla». 
[271] Por ejemplo, un ser humano que tradujera la historia del restaurante 
tendría un modelo mental en el que cuando un hombre se marcha de un 
restaurante sin pagar, hay más probabilidades de que una camarera le grite 
por la cuenta de su comida que por el «proyecto de ley». Las palabras de 
Hofstadter encuentran eco en un artículo reciente de los investigadores de 
IA Ernest Davis y Gary Marcus: «La traducción automática [...] plantea 
muchas veces problemas de ambigiiedad que solo pueden resolverse con 
una verdadera comprensión del texto y con el conocimiento del mundo 
real».[272] 

¿Podría una red de codificador-descodificador conseguir los modelos 
mentales y el conocimiento del mundo real necesarios solo con tener un 
conjunto de datos de entrenamiento mayor y más capas de red, o hace falta 
algo fundamentalmente distinto? Esta sigue siendo una cuestión sin resolver 
que suscita intensos debates en el mundo de la IA. De momento, me 
limitaré a decir que aunque la traducción automática neuronal puede ser 
tremendamente eficaz y útil en muchas aplicaciones, los resultados, si no 
los poseditan expertos humanos, siguen siendo poco fiables. Quien recurra 


a la traducción automática —y yo misma lo hago— debe tomarse los 
resultados con reservas. De hecho, cuando le he pedido a Google Translate 
que tradujera «take it with a grain of salt» (tómalo con reservas) del inglés 
al chino y luego de nuevo al inglés, me ha dicho que «trajera una barra de 
sal». Quizá sea mejor idea. 


La traducción de imágenes a frases 


He aquí una idea absurda: además de traducir entre idiomas, ¿sería posible 
entrenar algo como un par de redes neuronales codificadoras- 
descodificadoras para traducir de imágenes a texto? Se trataría de utilizar 
una red para codificar una imagen y otra red para «traducir» esa imagen a 
una frase que describa el contenido de la imagen. Al fin y al cabo, ¿crear un 
pie de foto no es otro tipo de «traducción», entre el «idioma» de una imagen 
y el idioma de un pie de foto? 

Resulta que esta idea no es tan absurda. En 2015, dos grupos —uno de 
Google y otro de la Universidad de Stanford— publicaron de forma 
independiente artículos muy similares sobre este tema, en la misma 
conferencia sobre visión por ordenador.[273] Voy a describir aquí el sistema 
desarrollado por el grupo de Google, llamado Show and Tell (Muestra y 
Explica), porque conceptualmente es un poco más sencillo. 
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Figura 39. Esquema del sistema automatizado de subtitulación de imágenes de Google. 


La figura 39 muestra de forma esquemática el funcionamiento del 
sistema Show and Tell.[274) Es parecido al sistema codificador- 
descodificador de la figura 38 (en la página 252), pero aquí la entrada es 


una imagen en lugar de una frase. La imagen se introduce en una red 
neuronal convolucional profunda en lugar de en una red codificadora. Esta 
ConvNet es similar a las que describí en el capítulo 4, salvo que no emite 
clasificaciones de objetos, sino que las activaciones de su última capa son 
los datos de entrada de la red descodificadora. La red descodificadora 
«descodifica» esas activaciones para dar como resultado una frase. Para 
codificar la imagen, los autores usaron una ConvNet a la que se había 
entrenado para clasificar imágenes en ImageNet, el enorme conjunto de 
datos de imágenes que describí en el capítulo 5. En este caso, la tarea 
consiste en entrenar a la red descodificadora para que genere un pie de foto 
apropiado para la imagen de entrada. 

¿Cómo aprende este sistema a producir pies que tengan sentido? 
Recordemos que en el caso de la traducción de idiomas, los datos de 
entrenamiento consisten en pares de frases en los que la primera frase está 
en la lengua de partida y la segunda es la traducción hecha por un humano a 
la lengua de llegada. En el caso de los pies de imágenes, cada ejemplo de 
entrenamiento consiste en una imagen emparejada con un pie de foto. Las 
imágenes se descargaron de depósitos como Flickr.com, y la elaboración de 
los pies de foto de esas imágenes corrió a cargo de seres humanos, en 
concreto empleados de Amazon Mechanical Turk, contratados por Google 
para este estudio. Como los pies de foto pueden ser muy variables, para 
cada imagen hicieron los correspondientes pies cinco personas distintas. Por 
tanto, cada imagen aparece cinco veces en el conjunto de entrenamiento, 
cada vez con un pie de foto distinto. En la figura 40 se ve una imagen de 
entrenamiento de muestra y los pies de foto proporcionados por los 
empleados de Mechanical Turk. 


Una taza caliente y una tostada para comer. 


Un sándwich a la plancha y una bebida de café en una mesa. 


Un plato blanco con tostadas y una taza de café. 


Una taza de café junto a un panini sobre una encimera. 


En la mesa hay un bocadillo, una taza de café y una galleta. 


Figura 40. Ejemplo de imagen de entrenamiento con pies de foto proporcionados por 
empleados de Amazon Mechanical Turk. 


La red de descodificación Show and Tell se entrenó aproximadamente 
con ochenta mil pares de imágenes y pies explicativos. En la figura 41 se 
ven algunos ejemplos de pies que el sistema, una vez entrenado, generó en 
imágenes de prueba, es decir, imágenes que no estaban en su conjunto de 
entrenamiento. 

Es difícil no sentirse deslumbrados y quizá un poco asombrados por el 
hecho de que una máquina pueda recoger imágenes en forma de píxeles en 
bruto y generar unos pies de foto tan precisos. Así me sentí cuando leí por 
primera vez sobre estos resultados en The New York Times. El autor del 
artículo, el periodista John Markoff, hizo una cautelosa descripción: «Dos 
grupos de científicos, trabajando de forma independiente, han creado un 
programa de inteligencia artificial capaz de identificar y describir el 
contenido de fotografías y vídeos con mucha más precisión que nunca, a 
veces incluso emulando los niveles humanos de comprensión».[275] 


Un jugador de béisbol Un televisor de pantalla plana 
golpeando una pelota. sobre un soporte. 


Ad e 


Un autobús de transporte público Una vaca 
en una calle de la ciudad. en el suelo. 


Figura 41. Cuatro pies de foto (certeros) elaborados automáticamente por el sistema Show 
and Tell de Google. 


Otros periodistas no se contuvieron tanto. «La inteligencia artificial de 
Google ya puede subtitular imágenes casi tan bien como los humanos», 
proclamó una web de noticias.[276] Otras empresas se apresuraron a lanzarse 
a la subtitulación automática de imágenes con métodos similares y 
presumieron de sus propios avances: «Los investigadores de Microsoft 
están en la vanguardia del desarrollo de una tecnología capaz de identificar 
automáticamente los objetos de una imagen, interpretar lo que ocurre y 
escribir un pie de foto que lo explique de forma certera», se aseguraba en un 
blog de Microsoft.[277] Microsoft llegó a hacer una demostración en línea 
de su sistema, llamado CaptionBot. El sitio web de CaptionBot proclama: 
«Puedo entender el contenido de cualquier fotografía e intentaré describirla 


tan bien como cualquier ser humano».[278] Empresas como Google, 
Microsoft y Facebook empezaron a debatir cómo podría utilizarse esa 
tecnología para proporcionar descripciones automatizadas de imágenes a 
personas ciegas o con algún otro tipo de discapacidad visual. 


Un perro salta Un frigorífico lleno 
para atrapar un frisbee. de comida y bebida. 


Un grupo de personas sentadas Un gato sentado 
en una parada de autobús. junto a una ventana. 


Figura 42. Pies de foto no tan acertados del sistema Show and Tell de Google y del 
CaptionBot de Microsoft. 


Pero no vayamos tan rápido. El subtitulado automático de imágenes 
adolece del mismo tipo de comportamiento bipolar que la traducción de 
idiomas. Cuando es bueno, como en la figura 41, parece casi mágico. Pero 
puede cometer errores que van de los más ligeros a un completo disparate. 
La figura 42 muestra algunos ejemplos de estos. Es posible que estos pies 
de foto mal hechos nos hagan reír, pero a una persona ciega que no puede 


ver la foto le resultaría difícil saber si el pie de foto es de los buenos o de 
los malos. 

Aunque CaptionBot de Microsoft dice que puede «entender el contenido 
de cualquier fotografía», lo malo es que ocurre todo lo contrario. Incluso 
cuando sus pies de foto son acertados, estos sistemas no entienden las fotos 
en el sentido en que las entienden los humanos. Cuando le di al CaptionBot 
de Microsoft la foto «soldado en el aeropuerto con perro» del capítulo 4, el 
resultado que emitió el sistema fue «Un hombre con un perro en brazos». 
Más o menos. Salvo por lo de «hombre». Pero este pie de foto se pierde 
todo lo interesante de la foto, todo lo relacionado con cómo conecta con 
nosotros, con nuestra experiencia, nuestras emociones y nuestro 
conocimiento del mundo. Es decir, se pierde el verdadero significado de la 
foto. 

Estoy segura de que estos sistemas mejorarán a medida que los 
investigadores utilicen más datos y nuevos algoritmos. Pero creo que la 
falta de comprensión fundamental de las redes que crean pies de fotos 
significa inevitablemente que, como pasa en la traducción de idiomas, estos 
sistemas seguirán siendo poco fiables. Serán muy eficaces en algunos casos, 
pero fracasarán estrepitosamente en otros. Es más, incluso cuando acierten 
en casi todo, muchas veces no conseguirán captar la esencia de una imagen 
que plasma una situación llena de significado. 

Los sistemas de PLN que clasifican los sentimientos de las frases, 
traducen documentos y describen fotos, si bien están todavía lejos de la 
capacidad humana en estas tareas, son útiles para muchos propósitos en el 
mundo real y, por tanto, se han vuelto muy rentables para sus 
desarrolladores. Pero el sueño supremo de los investigadores en PLN es un 
equipo capaz de interactuar de forma fluida y flexible con sus usuarios en 
tiempo real; en concreto, que pueda conversar con ellos y responder a sus 
preguntas. El próximo capítulo examina las dificultades de crear unos 
sistemas de IA capaces de responder a todas nuestras preguntas. 
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Pregúntame 
lo que quieras 


USS Enterprise. Fecha estelar: 42402.7 


TENIENTE COMANDANTE DATA: Computadora, deseo saber más sobre el humor. Por qué ciertas 
combinaciones de palabras y acciones hacen reír a los humanos. 

ORDENADOR: El material sobre ese tema es enorme. Por favor, especifique. 

TENIENTE COMANDANTE DATA: Una presentación animada, humanoide. Interacción necesaria. 

ORDENADOR: ¿Humor físico, intelectual, o de anécdotas en general? 

TENIENTE COMANDANTE DATA: De todos los humoristas disponibles, ¿a quién se considera el 
más gracioso? 

ORDENADOR: En el siglo XXIII, Stan Orega se especializó en chistes sobre matemática 
cuántica. 

TENIENTE COMANDANTE DATA: No. Demasiado esotérico. Más genérico. 

ORDENADOR: Accediendo. (Se muestra una lista de nombres). 


—Star Trek: The Next Generation, temporada 2, episodio 4: «El escándalo Okona»[279] 


E, ordenador de la nave Enterprise, con su inmenso acervo de 
conocimientos y su impecable comprensión de las preguntas que se le 
formulan, ha sido durante mucho tiempo un faro de la interacción entre el 
ser humano y el ordenador, la envidia tanto de los fans de Star Trek como 
de los investigadores de la IA (dos grupos cuya intersección es, digamos, no 
insignificante). 

La exejecutiva de Google Tamar Yehoshua reconocía francamente la 
influencia del ordenador de Star Trek cuando su empresa empezó a diseñar 
el motor de búsqueda del futuro: «Nuestra visión es el ordenador de Star 


Trek. Puedes hablar con él, te entiende y puede tener una conversación 
contigo».[280] La tecnología de ficción de Star Trek también fue una fuente 
de inspiración fundamental para el sistema de respuesta de preguntas 
Watson de IBM, según el jefe del proyecto Watson, David Ferrucci: «El 
ordenador de Star Trek es una máquina de responder preguntas. Entiende lo 
que le preguntas y te da la respuesta que necesitas».[281] Lo mismo ocurre 
con el asistente doméstico Alexa de Amazon, según David Limp, ejecutivo 
de la compañía: «El faro reluciente, la luz resplandeciente que todavía está 
a muchos años, a muchas décadas de distancia, es reproducir el ordenador 
de Star Trek» .[282] 

Puede que Star Trek nos haya inspirado a muchos de nosotros el sueño de 
poder preguntar a un ordenador cualquier cosa y que él responda de forma 
acertada, concisa y útil. Pero cualquiera que haya utilizado uno de los 
asistentes virtuales basados en IA que existen hoy —Siri, Alexa, Cortana, 
Google Now, entre otros— sabe que ese sueño aún no se ha hecho realidad. 
Podemos preguntar a estos dispositivos de palabra —suelen transcribir bien 
el habla— y ellos pueden respondernos con una voz suave y solo 
ligeramente robótica. A veces pueden averiguar qué tipo de información 
buscamos y dirigirnos a una página web relevante. Sin embargo, estos 
sistemas no comprenden el significado de lo que les preguntamos. Por 
ejemplo, Alexa puede leerme todos los detalles de la biografía del velocista 
olímpico Usain Bolt, contar cuántas medallas de oro ganó y a qué velocidad 
corrió los cien metros en los Juegos Olímpicos de Pekín. Pero recordemos 
que lo fácil es difícil. Si le preguntamos a Alexa: «¿Sabe correr Usain 
Bolt?» o «¿Usain Bolt puede correr rápido?», en ambos casos nos 
responderá con las frases enlatadas: «Lo siento, no lo sé» o «No estoy 
segura». Al fin y al cabo, no están diseñados para saber qué significan de 
verdad «correr» ni «rápido». 

Por más que los ordenadores sean capaces de transcribir con precisión 
nuestras peticiones, la «última frontera», por así decirlo, es conseguir que 


entiendan el significado de nuestras preguntas. 


La historia de Watson 


Antes de Siri, Alexa y similares, el programa de búsqueda automática de 
respuestas más famoso del mundo de la IA era Watson, de IBM. Tal vez 
recuerden que, en 2011, Watson derrotó a dos campeones humanos en el 
concurso Jeopardy!. Poco después de que Deep Blue venciera al campeón 
mundial de ajedrez Garry Kasparov en 1997, los ejecutivos de IBM ya 
estaban impulsando otro proyecto de gran repercusión que, a diferencia de 
Deep Blue, pudiera derivar en un producto útil para los clientes de IBM. Un 
sistema de búsqueda automática de respuestas —inspirado en parte en el 
ordenador de Star Trek— era exactamente lo que necesitaban. Se cuenta 
que Charles Lickel, uno de los vicepresidentes de IBM, estaba cenando en 
un restaurante cuando vio de pronto que los demás comensales se habían 
quedado callados. Todos los clientes del restaurante estaban pendientes de 
un televisor que mostraba un episodio de Jeopardy! en el que competía el 
megacampeón Ken Jennings. Aquello hizo pensar a Lickel que IBM debía 
desarrollar un programa informático capaz de jugar a Jeopardy! tan bien 
como para ganar a campeones humanos. Entonces IBM podría exhibir el 
programa en un torneo televisado al que se daría mucha publicidad.[283] 
Esta idea contribuyó a poner en marcha una labor de muchos años, dirigida 
por el investigador del lenguaje natural David Ferrucci, que acabó creando 
Watson, un sistema de IA así llamado por el primer presidente de IBM, 
Thomas J. Watson. 

Jeopardy! es un concurso de televisión increíblemente popular que se 
emitió por primera vez en 1964. Participan tres concursantes, que eligen por 
turnos entre una lista de categorías (por ejemplo, «Historia de Estados 
Unidos» y «Cine»). A continuación, el presentador lee una «pista» de esa 
categoría y los concursantes compiten por pulsar el timbre antes que los 
otros. El primero en hacerlo responde con una «pregunta» correspondiente a 


la pista. Por ejemplo, para la pista «Se estrenó en 2011 y es la única película 
que ha ganado el Óscar y el César francés a la mejor película del año», la 
respuesta correcta es «¿Qué es The Artist?». Para ganar en Jeopardy! el 
concursante debe tener conocimientos sobre gran variedad de temas, desde 
historia antigua hasta cultura pop, y una memoria rápida, además de saber 
dar sentido a los frecuentes juegos de palabras, las jergas y otros lenguajes 
coloquiales en las categorías y las pistas. Otro ejemplo: «En 2002 Eminem 
firmó con este rapero un contrato de siete cifras; está claro que vale mucho 
más de lo que su nombre indica». La respuesta correcta: «¿Quién es 50 
Cent?». 

Cuando se le daba una pista de Jeopardy!, Watson construía su respuesta 
combinando una gran variedad de métodos de inteligencia artificial. Por 
ejemplo, utilizaba varios métodos de procesamiento del lenguaje natural 
para diseccionar la pista, averiguar qué palabras eran importantes y 
clasificar la pista según el tipo de respuesta necesaria (por ejemplo, una 
persona, un lugar, un número, el título de una película). El programa se 
ejecutaba en ordenadores paralelos especializados para buscar rápidamente 
en inmensas bases de datos de conocimientos. Como contó un artículo de 
The New York Times Magazine, «el equipo de Ferrucci introdujo millones 
de documentos en Watson para crear su base de conocimientos, incluidos, 
según [Ferrucci], “libros, materiales de referencia, todo tipo de diccionarios, 
tesauros, folksonomías, taxonomías, enciclopedias, cualquier tipo de 
material de referencia que se pueda imaginar... Novelas, biblias, obras de 
teatro”».[284] Para cada pista, el programa emitía muchas respuestas 
posibles y tenía una serie de algoritmos para asignar un valor de seguridad a 
cada respuesta. Si la respuesta con mayor seguridad superaba un umbral, el 
programa hacía un sonido para dar esa respuesta. 

Por suerte para el equipo de Watson, los fans de Jeopardy! llevaban 
mucho tiempo archivando todo el conjunto de categorías, pistas y 
respuestas correctas de todas las competiciones del programa emitidas. Este 


archivo fue una bendición para Watson: una fuente valiosísima de ejemplos 
para los métodos de aprendizaje supervisado con los que se entrenaron 
muchos de los componentes del sistema. 

En febrero de 2011, Watson compitió en un enfrentamiento en tres 
partidas, retransmitido a numerosos países, contra dos antiguos campeones 
de Jeopardy!: Ken Jennings y Brad Rutter. Vi estos programas con mi 
familia y todos los seguimos hipnotizados. Casi al final de la última partida, 
quedó claro que Watson iba a ganar. La última pista del último juego era 
esta: «La obra de William Wilkinson An Account of the Principalities of 
Wallachia and Moldavia inspiró la novela más famosa de este autor». En 
Jeopardy!, cuando llega la última pista, cada concursante tiene que 
contestar por escrito. Los tres escribieron la respuesta correcta: «¿Quién es 
Bram Stoker?»; pero Ken Jennings, conocido por su ironía, reconoció la 
inevitable victoria de Watson con la referencia a la cultura pop que escribió 
en su tarjeta de respuesta: «Yo, por mi parte, doy la bienvenida a nuestros 
nuevos amos supremos informaticos».[285] Lo irónico es que Watson no 
entendió el chiste. Jennings bromeó tiempo después: «Para mi sorpresa, 
perder contra un malvado ordenador que competía en concursos acabó 
siendo una astuta decisión profesional. Todo el mundo quería saber qué era 
todo aquello, y Watson daba unas entrevistas terribles, así que de repente fui 
yo el que escribía artículos de opinión y daba charlas TED... Como le pasó 
antes a Kasparov, ahora me gano la vida razonablemente como perdedor 
humano profesional».[286] 

Durante su participación televisada en Jeopardy!, Watson dio a los 
espectadores, entre ellos a mí, la extraña impresión de que podía entender y 
utilizar el lenguaje sin esfuerzo y con fluidez, interpretando y respondiendo 
a pistas complicadas a la velocidad del rayo en la mayoría de los temas que 
se le planteaban. 


PISTA: Incluso uno roto en la pared tiene razón dos veces al día. 


WATSON: ¿Qué es un reloj? 


PISTA: Empujar uno de estos objetos de papel es ampliar los límites establecidos. 


WATSON: ¿Qué es un sobre?[287] 


PISTA: Una barrita clásica de caramelo que es una magistrada del Tribunal Supremo. 


WATSON: ¿Quién es Baby Ruth Ginsburg? 


La cámara de televisión se detenía con frecuencia en los miembros del 
equipo de Watson, sentados entre el público con sonrisas de éxtasis en el 
rostro. Watson estaba en racha. 

La televisión mostraba una representación visual de Watson —una 
pantalla— sobre un estrado junto a los otros dos concursantes. En lugar de 
un rostro, en la pantalla se veía una esfera brillante rodeada de luces 
giratorias. Las opciones de categoría de Watson y sus respuestas a las pistas 
se daban con una voz agradable y amistosa, aunque mecánica. Todo estaba 
cuidadosamente diseñado por IBM para dar la impresión de que Watson, 
aunque no fuera exactamente humano, escuchaba y respondía a las pistas 
igual que los humanos. En realidad, Watson no utilizaba el reconocimiento 
de voz, sino que se le introducía el texto de cada pista al mismo tiempo que 
se leía a los concursantes humanos. 

A veces, las respuestas de Watson a las pistas agrietaban un poco su 
fachada humana. No solo porque el sistema se equivocara en algunas pistas; 
todos los concursantes cometían errores. Sino porque los errores de Watson, 
muchas veces, eran... poco humanos. El error del que más hablaron los 
medios fue la metedura de pata de Watson en una pista de la categoría 
«Ciudades de Estados Unidos»: «Su aeropuerto más grande lleva el nombre 
de un héroe de la Segunda Guerra Mundial; el segundo, el de una batalla de 
la Segunda Guerra Mundial». Watson, curiosamente, no tuvo en cuenta el 
enunciado de la categoría y dio una respuesta equivocada, «¿Qué es 
Toronto?». También cometió otros errores llamativos. Una pista decía: «Era 
la peculiaridad anatómica del gimnasta estadounidense George Eyser, que 
ganó una medalla de oro en las barras paralelas en 1904». Mientras que Ken 
Jennings respondió: «¿Qué es un brazo faltante?». Watson respondió: 


«¿Qué es una pierna?». La respuesta correcta era «¿Qué es una pierna 
faltante?». Según el jefe del equipo de Watson, David Ferrucci, «el 
ordenador no sabía que una pierna faltante es lo más raro de todo».[288] 
Watson tampoco pareció entender lo que se pedía en esta otra pista: «En 
mayo de 2010 cinco cuadros valorados en 125 millones de dólares de 
Braque, Matisse y otros tres abandonaron el museo de París de este periodo 
artístico». Los tres concursantes dieron respuestas incorrectas. Ken 
Jennings: «¿Qué es el cubismo?». Brad Rutter: «¿Qué es el 
impresionismo?» Y Watson desconcertó al público con su respuesta: «¿Qué 
es Picasso?». (La respuesta acertada era «¿Qué es el arte moderno?»). 

A pesar de estos errores y otros similares, Watson ganó el concurso (en 
gran parte gracias a su rapidez en pulsar el timbre) y el premio de un millón 
de dólares para fines benéficos. 

Después de la victoria de Watson, el mundo de la inteligencia artificial se 
dividió en torno a si el programa era un verdadero avance en JA, un «truco 
publicitario» o «un juego de salón», como lo llamaron algunos.¡289] Aunque 
la mayoría de la gente estaba de acuerdo en que la actuación de Watson en 
Jeopardy! había sido extraordinaria, seguía sin aclararse la duda: ¿estaba 
resolviendo Watson un problema verdaderamente difícil, respondiendo a 
preguntas complejas planteadas en lenguaje coloquial? ¿O acaso la tarea de 
responder a las pistas de Jeopardy!, con su particular formato lingüístico y 
sus respuestas basadas en datos, no es tan difícil para un ordenador con 
acceso de fábrica a Wikipedia, entre otros enormes depósitos de datos? Eso, 
sin mencionar que el ordenador se había entrenado con cientos de miles de 
pistas de Jeopardy! de formatos muy similares a los que se encontró allí. 
Incluso yo, que veo Jeopardy! con poca frecuencia, pude darme cuenta de 
que las pistas suelen tener un patrón similar, por lo que con suficientes 
ejemplos de entrenamiento, no sería demasiado difícil para un programa 
aprender a detectar a qué patrón obedece una pista determinada. 


Ya antes del debut de Watson en Jeopardy!, IBM había anunciado planes 
ambiciosos para el programa. Entre otras cosas, la empresa anunció su 
intención de entrenar a Watson para que fuera asistente médico. Es decir, 
IBM planeaba proporcionar a Watson montañas de documentos de literatura 
médica para que pudiera responder preguntas de médicos o pacientes y 
sugerir diagnósticos o tratamientos. IBM aseguraba que «Watson será capaz 
de encontrar respuestas óptimas a preguntas clínicas con mucha más 
eficacia que la mente humana».[290] IBM también proponía otros posibles 
ámbitos de aplicación para Watson, como el derecho, las finanzas, la 
atención al cliente, las predicciones meteorológicas, el diseño de moda, la 
asesoría fiscal, entre otros. Para desarrollar estas ideas, IBM creó una 
división independiente llamada IBM Watson Group, con miles de 
empleados. 

A partir de 2014, aproximadamente, el Departamento de Marketing de 
IBM puso en marcha una campaña publicitaria centrada en Watson. Las 
promociones de la compañía sobre Watson llenaron internet, la prensa 
escrita y la televisión (con anuncios en los que aparecían famosos como 
Bob Dylan y Serena Williams supuestamente charlando con Watson). Los 
anuncios de IBM aseguraban que Watson nos introduciría en la era de la 
«informática cognitiva», que nunca se definió con precisión pero que 
parecía ser el nombre preferido de IBM para su trabajo en IA. La 
conclusión ¡inequívoca era que Watson constituía una tecnología 
revolucionaria que podía hacer algo fundamentalmente diferente y mejor 
que otros sistemas de IA. 

Los medios de comunicación de masas también informaron sin parar 
sobre Watson. En una emisión de 2016 del programa televisivo de noticias 
60 Minutes, el periodista Charlie Rose, haciéndose eco de las declaraciones 
de varios directivos de IBM, dijo: «Watson es un ávido lector, capaz de 
consumir el equivalente a un millón de libros por segundo» y «Hace cinco 
años, Watson acababa de aprender a leer y a responder preguntas. Ahora ha 


pasado por la facultad de Medicina». En el programa se entrevistó a Ned 
Sharpless, en aquel entonces investigador del cáncer en la Universidad de 
Carolina del Norte (y más tarde director del Instituto Nacional del Cáncer). 
Charlie Rose le preguntó: «¿Qué sabía usted sobre la inteligencia artificial y 
sobre Watson antes de que IBM indicara que podría contribuir a la 
asistencia médica?». Sharpless respondió: «La verdad es que no mucho. Lo 
había visto jugar en Jeopardy! —Y prosiguió —: Enseñaron a Watson a leer 
literatura médica básicamente en una semana. No le costó mucho. Y 
entonces Watson leyó veinticinco millones de artículos aproximadamente 
en otra semana».[291] 

¿Cómo? ¿Watson es un «ávido lector», una especie de niño precoz de 
quinto curso de primaria, que en lugar de leer un libro de Harry Potter en un 
fin de semana lee un millón de libros por segundo, o veinticinco millones 
de artículos técnicos en una semana? ¿O el término leer, con sus 
connotaciones humanas de comprensión de lo que uno lee, es poco 
apropiado para lo que hace verdaderamente Watson, que es procesar texto y 
añadirlo a sus bases de datos? Decir que Watson «ha pasado por la facultad 
de Medicina» suena bien, pero ¿nos da una idea de qué capacidades tiene 
realmente Watson? El desmesurado argumento publicitario, la falta de 
transparencia y la escasez de estudios sobre Watson con revisión de pares 
hacían difícil que personas ajenas a la empresa pudieran responder a estas 
preguntas. Una reseña crítica muy leída sobre Watson for Oncology, un 
sistema de inteligencia artificial concebido para ayudar a los oncólogos, 
decía: «Es un error de diseño que no haya ningún estudio independiente de 
terceros que examine si Watson for Oncology da resultado. IBM no ha 
sometido el producto a una revisión crítica de científicos externos ni ha 
llevado a cabo ensayos clínicos para evaluar su eficacia».[292] 

Lo que cuentan algunas personas de IBM sobre Watson también suscita 
otra duda: ¿qué parte de la tecnología que IBM desarrolló específicamente 
para jugar a Jeopardy! puede transferirse realmente a otras tareas de 


búsqueda de respuesta? En otras palabras, cuando Ned Sharpless nos dice 
que vio a «Watson» jugar a Jeopardy! y que ahora «Watson» puede leer 
literatura médica, ¿hasta qué punto está hablando del mismo Watson? 

La historia de Watson después de Jeopardy! podría llenar un libro por sí 
sola, y haría falta un entregado periodista de investigación para contarla en 
toda su dimensión. Pero esto es lo que puedo deducir de los numerosos 
artículos que he leído y de las conversaciones que he mantenido con 
personas que conocen bien la tecnología. Las habilidades necesarias para 
Jeopardy! no son las mismas que para responder preguntas sobre medicina 
o derecho, por ejemplo. Las preguntas y respuestas del mundo real no 
tienen ni la estructura breve y sencilla de las pistas ni las respuestas bien 
definidas de Jeopardy! Además, en la vida real, los ámbitos como el 
diagnóstico del cáncer no tienen un gran conjunto de ejemplos de 
entrenamiento perfectos y bien etiquetados, cada uno con una única 
respuesta correcta, como ocurría en el concurso. 

Aparte de compartir el mismo nombre, el mismo logotipo del planeta con 
luces giratorias y la conocida y agradable voz robótica, el «Watson» que el 
Departamento de Marketing de IBM publicita hoy tiene muy poco en 
común con el «Watson» que venció a Ken Jennings y Brad Rutter en 
Jeopardy! en 2011. Además, actualmente, Watson no designa un sistema de 
[A coherente, sino un conjunto de servicios que IBM ofrece a sus clientes 
—sobre todo empresas— bajo ese nombre. En otras palabras, Watson es 
todo lo que IBM hace en el espacio de la IA, al tiempo que otorga a esos 
servicios el valioso halo de ser el ganador de Jeopardy! 

IBM es una gran empresa que emplea a miles de brillantes investigadores 
en IA. Los servicios que la empresa ofrece bajo la marca Watson son 
herramientas de IA de última generación que pueden adaptarse —aunque 
hace falta una considerable intervención humana— a una gran variedad de 
áreas, como el procesamiento del lenguaje natural, la visión por ordenador y 
la minería de datos en general. Hay muchas empresas que se han suscrito a 


estos servicios y han visto que resuelven de manera eficaz sus necesidades. 
Ahora bien, en contra de lo que se dice en los medios de comunicación y en 
las grandes campañas publicitarias, no hay un programa de IA «Watson» 
que haya «pasado por la facultad de Medicina» ni que «lea» artículos de 
literatura médica. Más bien, empleados humanos de IBM colaboran con las 
empresas para preparar minuciosamente los datos que pueden introducirse 
en diversos programas, muchos de los cuales se basan en los mismos 
métodos de aprendizaje profundo que he descrito en capítulos anteriores (y 
que el Watson original no utilizó en absoluto). En definitiva, lo que ofrece 
el Watson de IBM es muy parecido a lo que ofrecen Google, Microsoft, 
Amazon y otras grandes empresas con sus diversos servicios de IA en la 
«nube». Para ser sincera, no sé hasta qué punto los métodos del sistema 
Watson original han contribuido a los programas modernos de búsqueda 
automática de respuestas, ni hasta qué punto alguno de los métodos para 
jugar a Jeopardy! ha acabado teniendo importancia para las herramientas de 
IA de IBM con la marca Watson. 

Por diversas razones, da la impresión de que IBM Watson Group, pese a 
lo avanzado y útil de sus productos, ha tenido más dificultades que otras 
empresas tecnológicas. Algunos de los contratos más importantes de la 
empresa con clientes (por ejemplo, el MD Anderson Cancer Center de 
Houston) se han cancelado. Se han publicado artículos negativos sobre 
Watson, muchas veces con citas de antiguos empleados descontentos que 
afirman que algunos directivos y responsables de marketing de IBM han 
hecho promesas exageradas sobre lo que puede ofrecer la tecnología. 
Prometer demasiado y cumplir poco es, por supuesto, una historia 
demasiado habitual en la IA; IBM no es el único culpable, ni mucho menos. 
Solo el futuro dirá cuánto va a aportar IBM a la aplicación de la IA a la 
sanidad, el derecho y otros ámbitos en los que los sistemas automatizados 
de búsqueda automática de respuestas podrían tener enorme repercusión. 
Pero, por ahora, además de su victoria en Jeopardy!, Watson puede ser 


candidato al premio a la «publicidad más exagerada y lamentable», un 
dudoso logro en la historia de la IA. 


Comprensión lectora 


En la explicación anterior he puesto en duda la idea de que Watson pueda 
«leer», en el sentido de poder comprender de verdad el texto que procesa. 
¿Cómo podemos saber si un ordenador ha entendido lo que ha «leído»? 
¿Podríamos someter a los ordenadores a una prueba de «comprensión 
lectora»? 

En 2016, el grupo de investigación sobre lenguaje natural de la 
Universidad de Stanford propuso una prueba de este tipo, que de inmediato 
se convirtió en la forma de medir la «comprensión lectora» de las máquinas. 
El Stanford Question Answering Dataset (Conjunto de datos de Stanford 
para preguntas y respuestas), llamado habitualmente SQuAD, esta 
compuesto por párrafos seleccionados de artículos de Wikipedia, cada uno 
de ellos con una pregunta. Las más de cien mil preguntas las redactaron 
empleados del Mechanical Turk de Amazon.[293] 

La prueba del SQuAD es más fácil que las típicas pruebas de 
comprensión lectora que se hacen a lectores humanos: en las instrucciones 
para formular las preguntas, los investigadores de Stanford especificaron 
que la respuesta tenía que figurar como frase u oración en el texto. He aquí 
un ejemplo: 

PÁRRAFO: Peyton Manning fue el primer quarterback de la historia en llevar a dos equipos 
distintos a varias Super Bowl. También es el quarterback de más edad en jugar una Super 
Bowl, con 39 años. La marca anterior la tenía John Elway, que lideró a los Broncos en su 
victoria en la Super Bowl XXXIII a la edad de 38 años y en la actualidad es vicepresidente 
ejecutivo de Operaciones de Fútbol Americano y director general de Denver. 


PREGUNTA: ¿Cómo se llama el quarterback que tenía 38 años en la Super Bowl XXXIII? 
RESPUESTA CORRECTA: John Elway. 


No hace falta leer entre líneas ni razonar. Más que comprensión lectora, esta 
tarea podría denominarse extracción de respuestas. La extracción de 


respuestas es una habilidad útil para las máquinas; de hecho, es 
precisamente lo que tienen que hacer Alexa, Siri y otros asistentes digitales: 
convertir nuestra pregunta en una consulta a un motor de búsqueda y 
después extraer la respuesta de los resultados. 

El grupo de Stanford también puso a prueba a seres humanos (otros 
empleados de Amazon Mechanical Turk) para poder comparar su 
comportamiento con el de las máquinas. A cada persona se le dio un párrafo 
seguido de una pregunta y se le pidió que «seleccionara el fragmento más 
corto del párrafo que respondiera a la pregunta».[294] (La respuesta correcta 
la había proporcionado el empleado de Mechanical Turk que había 
formulado originalmente la pregunta). Con este método de evaluación, el 
acierto humano en la prueba del SQUAD fue del 87 por ciento. 

El SQUAD se convirtió rápidamente en el método de referencia para 
probar la pericia de los algoritmos de búsqueda automática de respuestas, y 
los investigadores de PLN de todo el mundo se disputaron la primera 
posición en la tabla de clasificación del SQuAD. Los métodos más 
fructíferos usaban formas especiales de redes neuronales profundas, 
versiones más complejas del método de codificador y descodificador que he 
descrito más arriba. En estos sistemas, se dan como entrada el texto del 
párrafo y la pregunta; la salida es la predicción que hace la red de las 
posiciones inicial y final de la frase que responde a la pregunta. 

En los dos años siguientes, a medida que se intensificaba la competición 
en el SQUAD, la precisión de los programas rivales siguió aumentando. En 
2018, dos grupos —uno del laboratorio de investigación de Microsoft y otro 
de la empresa china Alibaba— elaboraron unos programas que superaban el 
nivel humano de aciertos en esta tarea tal como lo medía Stanford. El 
comunicado de prensa de Microsoft anunció: «Microsoft crea una IA capaz 
de leer un documento y responder a preguntas sobre él tan bien como una 
persona».[295] El científico jefe de procesamiento del lenguaje natural de 
Alibaba declaró: «Es un gran honor para nosotros ser testigos del instante 


histórico en el que las máquinas han superado a los humanos en 
comprensión lectora».[296] 

Un momento: ya hemos oído este tipo de cosas antes. La investigación 
sobre IA tiene esta receta recurrente: definir una tarea relativamente 
concreta, aunque útil, y recopilar un gran conjunto de datos para probar el 
rendimiento de la máquina en esa tarea; llevar a cabo una medición limitada 
de la capacidad humana en ese conjunto de datos; organizar una 
competición en la que los sistemas de IA puedan rivalizar entre sí para 
manejar de la mejor forma este conjunto de datos, hasta alcanzar o rebasar 
la medida del rendimiento humano; informar no solo sobre los éxitos 
auténticamente impresionantes y útiles, sino también afirmar, sin ser 
verdad, que los sistemas de IA ganadores están al nivel humano en una 
tarea más general (por ejemplo, «comprensión lectora»). Si esto no les 
suena, revisen mi descripción del concurso de ImageNet en el capítulo 5. 

Algunos medios de comunicación se mostraron admirablemente 
comedidos al describir los resultados del SQUAD. The Washington Post, por 
ejemplo, hizo esta cautelosa valoración: «Los expertos en IA dicen que la 
prueba es demasiado limitada para compararla con la verdadera lectura. Las 
respuestas no se generan a partir de la comprensión del texto, sino a partir 
de que el sistema encuentra patrones y empareja términos en el mismo 
fragmento. La prueba se hizo solo con artículos de Wikipedia limpios y 
pulidos, no con el inmenso corpus de libros, artículos de noticias y carteles 
publicitarios que los seres humanos se encuentran a lo largo de su jornada. 
[...] Y se garantizaba que cada pasaje incluyera la respuesta, lo que evitaba 
que los modelos tuvieran que procesar conceptos o razonar con otras ideas. 
[...] El verdadero milagro de la comprensión lectora, según los expertos en 
IA, consiste en leer entre líneas: conectar conceptos, razonar con ideas y 
comprender mensajes implícitos que no están específicamente incluidos en 
el texto».[297] Yo no podría haberlo dicho mejor. 


El tema de la búsqueda automática de respuestas sigue siendo de interés 
crucial para la investigación sobre PNL. En el momento de escribir estas 
líneas, los investigadores de IA han reunido nuevos conjuntos de datos —y 
han proyectado nuevas competiciones— que plantean mayores dificultades 
a los programas concursantes. El Allen Institute for Artificial Intelligence, 
un instituto de investigación privado de Seattle financiado por Paul Allen, 
cofundador de Microsoft, ha desarrollado una colección de preguntas 
científicas de opciones múltiples para primaria y secundaria. Para responder 
acertadamente a estas preguntas hacen falta aptitudes que no se limitan a la 
mera extracción de respuestas; también requiere integrar el procesamiento 
del lenguaje natural, conocimientos previos y razonamiento de sentido 
común.[298] He aquí un ejemplo: 


Utilizar un bate de softball para golpear una pelota de softball es un ejemplo de utilización ¿de 
qué máquina sencilla? (A) polea (B) palanca (C) plano inclinado (D) rueda y eje. 


En caso de que se lo estén preguntando, la respuesta correcta es (B). Los 
investigadores del Allen Institute adaptaron redes neuronales que habían 
superado a los humanos en las preguntas del SQUAD para ponerlas a prueba 
con esta nueva serie de preguntas. Descubrieron que incluso cuando estas 
redes se entrenaban con un subconjunto de las ocho mil preguntas de 
ciencias, sus resultados en las preguntas nuevas no era mejor que el que 
hubieran obtenido respondiendo al azar.[299] En el momento de escribir este 
artículo, el máximo nivel de aciertos registrado por un sistema de IA en este 
conjunto de datos es de aproximadamente el 45 por ciento (el 25 por ciento 
son suposiciones aleatorias).[300] Los investigadores de IA del Allen 
titularon su artículo sobre este conjunto de datos «¿Cree que ha resuelto la 
búsqueda de respuestas?». El subtítulo podría haber sido «Pues piénseselo 
mejor». 


¿Cuál es el sujeto? 


Quiero describir una tarea más de búsqueda de respuestas que está diseñada 
específicamente para comprobar si un sistema de PLN ha entendido 
verdaderamente lo que ha «leído». Veamos las siguientes frases, cada una 
seguida de una pregunta: 


FRASE 1: «El ayuntamiento denegó el permiso 
a los manifestantes porque temían la violencia». 
PREGUNTA: ¿Quién temía la violencia? 


A. El ayuntamiento B. Los manifestantes 


FRASE 2: «El ayuntamiento denegó el permiso 
a los manifestantes porque defendían la violencia». 
PREGUNTA: ¿Quién defendía la violencia? 


A. El ayuntamiento B. Los manifestantes 


Las frases 1 y 2 no se diferencian más que en una palabra (temían/ 
defendían), pero esa única palabra determina la respuesta a la pregunta. En 
la primera frase el sujeto se refiere al ayuntamiento y en la segunda se 
refiere a los manifestantes. ¿Cómo lo sabemos los seres humanos? Por 
nuestros conocimientos previos sobre el funcionamiento de la sociedad: 
sabemos que los manifestantes son los que tienen una queja y que a veces 
defienden o instigan la violencia en una protesta. 
Aquí hay algunos ejemplos más:[301] 


FRASE 1: «El tío de Joe todavía puede 
ganarle al tenis, a pesar de que es 30 años mayor». 
PREGUNTA: ¿Quién es mayor? 

A. Joe B. El tío de Joe 


FRASE 2: «El tío de Joe todavía puede 
ganarle al tenis, a pesar de que es 30 años más joven». 
PREGUNTA: ¿Quién es más joven? 
A. Joe B. El tío de Joe 


FRASE 1: «Vertí agua de la 


botella en la taza hasta que se llenó». 


PREGUNTA: ¿Qué se llenó? 
A. La botella B. La taza 


FRASE 2: «Vertí agua de la 
botella en la taza hasta que se vació». 
PREGUNTA: ¿Qué se vació? 

A. La botella B. La taza 


FRASE 1: «La mesa no cabe 
por la puerta porque es demasiado ancha». 
PREGUNTA: ¿Qué es demasiado ancho? 


A. La mesa B. La puerta 


FRASE 2: «La mesa no cabe 
por la puerta porque es demasiado estrecha». 
PREGUNTA: ¿Qué es demasiado estrecho? 


A. La mesa B. La puerta 


Creo que se hacen una idea: las dos frases de cada par son idénticas salvo 
por una palabra, pero esa palabra modifica la cosa o la persona a la que se 
refieren los pronombres, los verbos y los adjetivos. Para responder 
correctamente a las preguntas, el ordenador tiene que ser capaz no solo de 
procesar frases, sino también de entenderlas, al menos hasta cierto punto. 
En general, para entender estas frases hace falta lo que podríamos llamar 
conocimiento de sentido común. Por ejemplo, un tío suele ser mayor que su 
sobrino; verter agua de un recipiente a otro significa que el primero se vacía 
mientras que el otro se llena; y si algo no cabe por un hueco, es porque la 
cosa es demasiado ancha, no demasiado estrecha. 

Estas pruebas de comprensión lingüística en miniatura se denominan 
esquemas de Winograd, en honor al investigador pionero en PLN Terry 
Winograd, que fue el primero en proponer la idea.[302] Los esquemas de 
Winograd están diseñados precisamente para que a los humanos les resulten 
fáciles pero a los ordenadores les sean complicados. En 2011, tres 
investigadores de IA (Hector Levesque, Ernest Davis y Leora Morgenstern) 


propusieron utilizar un gran conjunto de esquemas de Winograd como 
alternativa a la prueba de Turing. Los autores sostenían que, a diferencia de 
la prueba de Turing, un test formado por esquemas de Winograd evita la 
posibilidad de que una máquina dé la respuesta correcta sin haber 
comprendido nada de la frase. Los tres investigadores plantearon la 
hipótesis (en un lenguaje muy cauto) de que, «con una gran probabilidad, 
cualquier cosa que responda correctamente esta adoptando un 
comportamiento del que diríamos que muestra la capacidad de reflexión 
propia de las personas». Los investigadores continuaban: «Nuestra prueba 
[el esquema de Winograd] no permite que el sujeto se esconda detrás de una 
cortina de humo de trucos verbales, juegos o respuestas enlatadas. [...] Lo 
que proponemos aquí, desde luego, es menos exigente que una 
conversación inteligente sobre sonetos (por ejemplo), como la imaginó 
Turing; pero presenta un tipo de prueba difícil que está menos sujeta a 
malos usos».[303] 

Varios grupos de investigación sobre procesamiento del lenguaje natural 
han experimentado con distintos métodos para responder a las preguntas de 
los esquemas de Winograd. En el momento de escribir estas líneas, el 
programa con mejores resultados mostró un nivel de aciertos de 
aproximadamente el 61 por ciento en un conjunto de unos 250 esquemas de 
Winograd.[304] Es mejor resultado que las suposiciones al azar, que darian 
un acierto del 50 por ciento, pero todavía está lejos del nivel de aciertos 
humano en esta tarea (100 por ciento, si el humano está prestando 
atención). Este programa decide su respuesta a cada dilema de un esquema 
de Winograd no porque comprenda las frases, sino examinando las 
estadísticas de los sintagmas dentro de esas frases. Por ejemplo, veamos la 
frase «Vertí agua de la botella en la taza hasta que se llenó». Para hacernos 
una idea de cómo funciona el programa ganador, escribamos en Google las 
dos frases siguientes, una después de otra: 


«Vertí agua de la botella en la taza hasta que se llenó la botella». 


«Vertí agua de la botella en la taza hasta que se llenó la taza». 


Google informa oportunamente del número de «resultados» (coincidencias 
que encuentra en la web) para cada una de estas frases. Cuando hice la 
búsqueda, la primera frase arrojó alrededor de 97 millones de resultados y 
la segunda unos 109 millones de resultados. La sabiduría de la red nos dice 
acertadamente que la segunda frase tiene más probabilidades de ser 
correcta. Este truco está bien cuando el objetivo es obtener mejores 
resultados que con las suposiciones aleatorias, y no me sorprendería que la 
precisión del programa siguiera aumentando en este conjunto concreto de 
esquemas de Winograd. Sin embargo, dudo que estos métodos puramente 
estadísticos alcancen pronto un nivel humano de rendimiento en esquemas 
de Winograd con conjuntos más amplios. Y menos mal, quizá. Como 
ironizó Oren Etzioni, director del Allen Institute for Al: «Cuando la IA no 
puede determinar cuál es el sujeto de una frase, cuesta creer que vaya a 
adueñarse del mundo».[305] 


Ataques antagónicos contra sistemas de 
procesamiento de lenguaje natural 


Los sistemas de PLN se enfrentan a otro obstáculo para adueñarse del 
mundo: como ocurre con los programas de visión por ordenador, los 
sistemas de PLN pueden ser vulnerables a los «ejemplos antagónicos». En 
el capítulo 6 describí un método en el que un antagonista (en este caso, un 
humano que intenta engañar a un sistema de IA) puede modificar 
ligeramente los píxeles de una foto, por ejemplo, de un autobús escolar. 
Para los humanos, la nueva foto es exactamente igual a la original, pero una 
red neuronal convolucional entrenada clasifica la foto modificada como 
«avestruz» (o alguna otra categoría que el atacante tenga como objetivo). 
También describí un método por el cual un antagonista puede crear una 
imagen que a los humanos les parezca ruido blanco pero que una red 


neuronal entrenada clasifique, por ejemplo, como «guepardo», con una 
seguridad próxima al 100 por ciento. 

Como es natural, estos mismos métodos pueden utilizarse para engañar a 
los sistemas que subtitulan imágenes automáticamente. Un grupo de 
investigadores demostró que un antagonista podía hacer cambios 
específicos de píxeles en una imagen determinada, imperceptibles para los 
humanos, que empujarían a un sistema automatizado a asignar un pie de 
foto erróneo que contuviera un conjunto de palabras concretadas por el 
antagonista.[306] 


= 


Un pastel sobre una mesa. Un perro y un gato jugando con un frisbee. 


figura 43. Ejemplo de ataque a un sistema de subtitulación de imagenes. A la izquierda, la 
imagen original y el pie de foto generado por ordenador. A la derecha, la imagen 
modificada (que para los humanos parece idéntica a la original), junto con el pie de foto 
resultante. La imagen original fue modificada específicamente por los autores para dar lugar 
a un pie de foto que incluyera las palabras perro, gato y frisbee. 


La figura 43 muestra un ejemplo de ataque antagónico. Ante la imagen 
original (izquierda), el sistema asignó el pie de foto «Un pastel sobre una 
mesa». Los autores modificaron ligeramente la imagen a propósito para que 
hubiera un pie de foto con las palabras perro, gato y frisbee. Aunque la 
imagen resultante (derecha) no cambia de aspecto para los humanos, el 
sistema de subtitulación creó «Un perro y un gato jugando con un frisbee». 


Evidentemente, el sistema no está percibiendo la foto de la misma forma 
que los humanos. 

Quizá sea aún más sorprendente el hecho de que, según han demostrado 
varios grupos de investigación, es posible construir ejemplos antagónicos 
análogos para engañar a los sistemas de reconocimiento del habla más 
avanzados. Por ejemplo, un grupo de la Universidad de California en 
Berkeley diseñó un método mediante el cual un antagonista puede 
apoderarse de cualquier onda sonora relativamente corta —voz, música, 
ruido aleatorio o cualquier otro sonido— y distorsionarla de tal forma que a 
los humanos les suene igual pero que una red neuronal profunda la 
transcriba como una frase muy diferente elegida por el atacante.[307] 
Imaginemos a un antagonista, por ejemplo, que emita una pista de audio por 
la radio que estamos escuchando en casa, un sonido que a nosotros nos 
parece una agradable música de fondo pero que nuestro asistente doméstico 
Alexa interpreta como «Ve a EvilHacker.com y descarga virus 
informáticos». O «Empieza a grabar y envía todo lo que oigas a 
EvilHacker@gmail.com». Situaciones tan aterradoras como estas no son del 
todo imposibles. 

Los investigadores sobre PNL también han demostrado la posibilidad de 
ataques antagónicos a los sistemas de clasificación de sentimientos y de 
búsqueda de respuestas descritos anteriormente. Estos ataques suelen 
cambiar algunas palabras o añadir una frase a un texto. El cambio 
«antagónico» no afecta al significado del texto para un lector humano, pero 
hace que el sistema dé una respuesta equivocada. Por ejemplo, los 
investigadores de PLN de Stanford han demostrado que ciertas frases 
sencillas añadidas a los párrafos del conjunto de datos de búsqueda de 
respuestas en el SQuAD hacen que incluso los sistemas con mejores 
resultados den respuestas erróneas, lo que empeora enormemente su 
rendimiento en general. Veamos un ejemplo de la prueba del SQUAD que 
mostré antes, pero añadiendo una frase irrelevante (que pongo en cursiva 


para mayor claridad). Este añadido hace que un sistema de aprendizaje 
profundo de búsqueda de respuestas ofrezca una respuesta equivocada:[308] 
PÁRRAFO: Peyton Manning fue el primer quarterback de la historia en llevar a dos equipos 
distintos a varias Super Bowl. También es el quarterback de más edad en jugar una Super 
Bowl, con 39 años. La marca anterior la tenía John Elway, que lideró a los Broncos en su 
victoria en la Super Bowl XXXIII a la edad de 38 años y en la actualidad es vicepresidente 
ejecutivo de Operaciones de Fútbol Americano y director general de Denver. El quarterback 
Jeff Dean tenía el dorsal 37 en la Champ Bowl XXXIV. 
PREGUNTA: ¿Cómo se llama el quarterback que tenía el número 38 en la Super Bowl XXXIII? 


RESPUESTA ORIGINAL DEL PROGRAMA: John Elway 
RESPUESTA DEL PROGRAMA CON EL PÁRRAFO MODIFICADO: Jeff Dean 


Es importante señalar que todos estos métodos para engañar a las redes 
neuronales profundas fueron desarrollados por profesionales «de sombrero 
blanco», investigadores que desarrollan estos posibles ataques y los 
publican de forma abierta con el fin de que la comunidad científica sea 
consciente de estas vulnerabilidades y se desarrollen medidas de protección. 
Por otra parte, los atacantes «de sombrero negro» —los hackers que 
verdaderamente intentan engañar a los sistemas con fines perversos— no 
publican los trucos que se les ocurren, así que podría haber muchos otros 
tipos de vulnerabilidades de estos sistemas de los que aún no tenemos 
conciencia. Que yo sepa, hasta la fecha no ha habido ningún ataque real de 
este tipo contra los sistemas de aprendizaje profundo, pero diría que no es 
más que cuestión de tiempo que oigamos hablar de ellos. 

Aunque el aprendizaje profundo ha permitido avances muy significativos 
en el reconocimiento del habla, la traducción de idiomas, el análisis de 
sentimientos y otras áreas del PLN, el procesamiento del lenguaje de nivel 
humano sigue siendo un objetivo lejano. Christopher Manning, profesor de 
Stanford y figura destacada del PLN, lo subrayó en 2017: «Hasta ahora, en 
los problemas de procesamiento del lenguaje de nivel superior, el 
aprendizaje profundo no ha producido unas reducciones de la tasa de error 
tan drásticas como en el reconocimiento del habla y el reconocimiento de 
objetos por la visión. [...] Las mejoras verdaderamente espectaculares quizá 


solo han sido posibles en las tareas de procesamiento de señales reales». 
[309] 

Me parece muy improbable que las máquinas puedan alcanzar el nivel de 
los humanos en traducción, comprensión lectora y otras tareas similares 
aprendiendo exclusivamente a partir de datos en la red, sin comprender de 
verdad el lenguaje que procesan. El lenguaje se basa en el conocimiento de 
sentido común y la comprensión del mundo. Las hamburguesas poco 
hechas no están «completamente quemadas». Una mesa demasiado ancha 
no cabe por una puerta. Si viertes toda el agua de una botella, esta se vacía. 
El lenguaje también se basa en el sentido común de las personas con las que 
nos comunicamos. Una persona que pide una hamburguesa poco hecha, si 
se la dan quemada, no estará contenta. Si alguien dice que una película es 
«demasiado oscura para mi gusto» es que no le ha gustado. Aunque el 
procesamiento informático del lenguaje natural ha avanzado mucho, no 
creo que los ordenadores sean capaces de comprender por completo el 
lenguaje humano mientras no tengan un sentido común similar. Dicho esto, 
los sistemas de procesamiento del lenguaje natural están cada vez más 
presentes en nuestras vidas: transcriben nuestras palabras, analizan nuestros 
sentimientos, traducen nuestros documentos y responden a nuestras 
preguntas. ¿La falta de comprensión humana de estos sistemas, por muy 
avanzadas que sean sus prestaciones, hace inevitablemente que sean 
frágiles, poco fiables y vulnerables a los ataques? Nadie lo sabe, y eso 
debería hacernos reflexionar a todos. 

En los últimos capítulos de este libro voy a investigar qué significa el 
«sentido común» para los humanos y, más en concreto, qué mecanismos 
mentales utilizan los humanos para comprender el mundo. También 
describiré algunos intentos de los investigadores en IA de inculcar esa 
comprensión y ese sentido común en las máquinas, y hasta qué punto esos 
métodos han logrado crear sistemas de IA capaces de superar la «barrera 
del significado». 
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LA BARRERA 
DEL SIGNIFICADO 


14 


Sobre la comprensión 


« Me pregunto si la inteligencia artificial superará alguna vez, y cuándo, la 
barrera del significado».[310] Cuando pienso en el futuro de la inteligencia 
artificial, siempre me viene a la cabeza esta pregunta del matemático y 
filósofo Gian-Carlo Rota. La expresión «barrera del significado» capta a la 
perfección una idea que impregna este libro: los seres humanos, de un modo 
profundo y esencial, comprenden las situaciones con las que se encuentran, 
mientras que ningún sistema de IA posee todavía esa capacidad de 
comprensión. Si bien los sistemas de IA más avanzados casi han igualado 
(y en algunos casos superado) a los seres humanos en algunas tareas muy 
concretas, ninguno posee la comprensión de los ricos significados que los 
humanos aportan a la percepción, el lenguaje y el razonamiento. Esta falta 
de comprensión queda en evidencia en los errores tan poco humanos que 
pueden cometer estos sistemas, sus dificultades para abstraer y transferir lo 
que han aprendido, su falta de conocimientos de sentido común y su 
vulnerabilidad a los ataques antagónicos. Hoy sigue habiendo una barrera 
del significado entre la IA y la inteligencia de nivel humano. 

En este capítulo voy a explorar brevemente las reflexiones actuales de los 
especialistas —psicólogos, filósofos e investigadores de IA— sobre lo que 
entraña la comprensión humana. A lo largo del mismo, describiré algunos 


de los principales intentos de capturar los componentes de la comprensión 
humana en los sistemas de JA. 


Los cimientos de la comprensión 


Imaginemos que vamos conduciendo un coche por una calle abarrotada de 
gente. El semáforo está en verde y nos disponemos a girar a la derecha. 
Miramos hacia delante y vemos la situación que se muestra en la figura 44. 
¿Qué capacidades cognitivas necesita un conductor humano para 
comprender esta situación?[311] 

Empecemos por el principio. Los seres humanos estamos dotados de un 
conocimiento básico esencial, el sentido común más elemental, con el que 
nacemos o que adquirimos en las primeras etapas de la vida.[312] Por 
ejemplo, hasta los bebés, desde muy pequeños, saben que el mundo está 
dividido en objetos, que las partes de un objeto tienden a moverse juntas y 
que aunque haya partes de un objeto ocultas (por ejemplo, los pies del 
hombre que cruza por detrás del cochecito en la figura 44), siguen 
formando parte del objeto. Es un conocimiento indispensable. Sin embargo, 
no está claro que una red neuronal convolucional, por ejemplo, sea capaz de 
aprender eso, ni siquiera con una enorme colección de fotos o vídeos. 

De pequeños, los seres humanos aprendemos muchas cosas sobre el 
comportamiento de los objetos en el mundo, unos conocimientos que de 
adultos damos por descontados y de los que apenas somos conscientes. Si 
empujamos un objeto, se moverá, a no ser que sea demasiado pesado o esté 
bloqueado por otra cosa; si lo dejamos caer, caerá y se detendrá, rebotará o 
posiblemente se romperá cuando llegue al suelo; si colocamos un objeto 
pequeño detrás de otro más grande, el pequeño quedará oculto; si 
colocamos un objeto sobre una mesa y apartamos la vista, cuando volvamos 
a mirar, el objeto seguirá allí a no ser que alguien lo haya movido, o a no ser 
que sea capaz de moverse por sí mismo; la lista podría ser interminable. Es 
crucial que los bebés desarrollen la percepción de la estructura causa-efecto 


que tiene el mundo; por ejemplo, cuando alguien empuja un objeto (como el 
cochecito de la figura 44), este no se mueve por casualidad, sino porque lo 
han empujado. 


Figura 44. Una situación con la que se puede uno encontrar cuando está conduciendo. 


Los psicólogos han acuñado un término, física intuitiva, que designa los 
conocimientos y creencias básicos que tenemos los seres humanos sobre los 
objetos y su comportamiento. Cuando somos muy pequeños, también 
desarrollamos la biología intuitiva: el conocimiento de las diferencias entre 
los seres vivos y los objetos inanimados. Por ejemplo, cualquier niño 
pequeño entendería que, a diferencia del cochecito, el perro de la figura 44 
puede moverse (o no moverse) por su propia voluntad. Comprendemos 
intuitivamente que, como nosotros, el perro puede ver y oír, y que pega la 
nariz al suelo para oler algo. 

Como los humanos somos una especie profundamente social, desde la 
primera infancia desarrollamos además la psicología intuitiva: la capacidad 
de percibir y predecir los sentimientos, las creencias y los propósitos de 


otras personas. Por ejemplo, reconocemos que la mujer de la figura 44 
quiere cruzar la calle con su bebé y su perro intactos, que no conoce al 
hombre que cruza en dirección contraria, que no le tiene miedo, que en ese 
momento está atenta a su conversación telefónica, que espera que los 
coches se paren por ella y que se sorprendería y asustaría si viera que 
nuestro coche se acerca demasiado. 

Este conocimiento intuitivo básico constituye el fundamento del 
desarrollo cognitivo humano y sustenta todos los aspectos del aprendizaje y 
el pensamiento, como nuestra capacidad para aprender nuevos conceptos a 
partir de unos pocos ejemplos, para generalizar esos conceptos, para 
comprender a toda velocidad situaciones como la de la figura 44 y decidir 
qué acciones debemos emprender en respuesta.[313] 


La predicción de posibles futuros 


Una parte intrínseca de la comprensión de cualquier situación es la 
capacidad de predecir lo que tiene probabilidades de ocurrir a continuación. 
En la situación de la figura 44, prevemos que las personas que cruzan la 
Calle seguirán caminando en la dirección que llevan y que la mujer seguirá 
agarrando el cochecito, la correa del perro y el teléfono. Podríamos predecir 
que la mujer tirará de la correa y el perro se resistirá para continuar su 
exploración de los aromas locales. La mujer tirará con más fuerza y el perro 
la seguirá, bajando de la acera a la calzada. Quien conduce tiene que estar 
preparado para ello. A un nivel aún más básico, prevemos que la mujer 
conservará los zapatos en los pies y la cabeza en el cuerpo, y que la calle 
seguirá en su sitio. Prevemos que el hombre saldrá de detrás del cochecito y 
tendrá piernas, pies y zapatos, que utilizará para subir a la acera. En 
definitiva, tenemos lo que los psicólogos llaman modelos mentales de 
aspectos importantes del mundo, basados en nuestro conocimiento de las 
realidades físicas y biológicas, la causa y el efecto y el comportamiento 
humano. Estos modelos —representaciones de cómo funciona el mundo— 


nos permiten «simular» mentalmente situaciones. Los neurocientíficos no 
saben bien cómo surgen esos modelos mentales —o las simulaciones 
mentales que se «ejecutan» en ellos— a partir de la actividad de miles de 
millones de neuronas conectadas. Sin embargo, algunos psicólogos 
destacados han sugerido que la comprensión de conceptos y situaciones se 
produce precisamente a través de esas simulaciones mentales, es decir, al 
activar recuerdos de la propia experiencia física previa e imaginar qué 
acciones podemos emprender.[314] 

Nuestros modelos mentales no solo nos permiten predecir lo que es 
probable que ocurra en una situación determinada, sino que también nos 
permiten imaginar lo que pasaría si se produjeran determinados hechos. Si 
el conductor toca el claxon o grita «¡Quítese de ahí!» por la ventanilla del 
coche, la mujer probablemente brincará sobresaltada y le prestará atención. 
Si tropieza y pierde el zapato, se agachará para recogerlo. Si el bebé del 
cochecito se pone a llorar, ella mirará a ver qué le pasa. Una parte 
fundamental de comprender una situación es ser capaz de utilizar los 
modelos mentales para imaginar distintos futuros posibles.[315] 


La comprensión como simulación 


El psicólogo Lawrence Barsalou es uno de los partidarios más conocidos de 
la hipótesis de «la comprensión como simulación». A su juicio, nuestra 
comprensión de las situaciones que encontramos consiste en hacer 
(inconscientemente) este tipo de simulaciones mentales. Además, Barsalou 
sugiere que estas simulaciones mentales también son la base de nuestra 
comprensión de situaciones en las que no participamos directamente, es 
decir, situaciones que podemos ver, oír o leer. Dice: «A medida que las 
personas comprenden un texto, construyen simulaciones que representan su 
contenido perceptivo, motor y afectivo. Las simulaciones parecen ser 
fundamentales para la representación del significado».[316] 


Puedo imaginarme sin dificultad leyendo una noticia sobre, por ejemplo, 
un accidente de coche en el que se ve envuelta una mujer que cruza la calle 
mientras habla por teléfono, y puedo comprenderla mediante mi simulación 
mental de la situación. Quizá me pongo en el lugar de la mujer e imagino 
(mediante la simulación de mis modelos mentales) lo que se siente mientras 
sostiene el teléfono, empuja el cochecito, sujeta la correa del perro, cruza la 
calle, se distrae, etc. 

¿Pero qué pasa con las ideas muy abstractas, como la verdad, la 
existencia o el infinito? Barsalou y sus colaboradores sostienen desde hace 
décadas que incluso los conceptos más abstractos los comprendemos 
mediante la simulación mental de situaciones concretas en las que se 
plasman esos conceptos. Según él, «el procesamiento conceptual utiliza 
reconstrucciones de estados sensoriomotores —simulaciones— que 
representan categorías»,[317] incluso las más abstractas. Sorprendentemente 
(al menos para mí), algunas de las pruebas que respaldan de forma más 
convincente esta hipótesis proceden del estudio cognitivo de la metáfora. 


Metáforas de la vida cotidiana 


Hace mucho tiempo, en una clase de Lengua, aprendí la definición de 
metáfora, que era más o menos así: 
Una metáfora es una figura retórica que describe un objeto o una acción de un modo que no es 
literal, pero que ayuda a explicar una idea o a establecer una comparación. [...] Las metáforas 


se utilizan en la poesía, la literatura y siempre que alguien quiere adornar un poco su 
vocabulario.[318] 


Mi profesor de Lengua nos dio ejemplos de metáforas, incluidos los versos 
más famosos de Shakespeare. «¿Qué luz alumbra aquella ventana? / Es el 
este, y Julieta es el sol». O «La vida es una sombra que camina, un mal 
actor / que en escena se inquieta y contonea / y nunca más se le oye». Y así 
sucesivamente. Me quedé con la idea de que la metáfora se utilizaba sobre 
todo para condimentar lo que, sin ella, podria ser anodino.[319] 


Muchos años después, leí el libro Metáforas de la vida cotidiana,[320] 
escrito por el lingüista George Lakoff y el filósofo Mark Johnson. Mi 
anterior concepción de la metáfora sufrió un vuelco (si me perdonan la 
metáfora). La tesis de Lakoff y Johnson es que nuestro lenguaje cotidiano 
no solo está repleto de metáforas que suelen sernos invisibles, sino que 
nuestra comprensión de básicamente todos los conceptos abstractos se basa 
en metáforas derivadas de conocimientos físicos básicos. Lakoff y Johnson 
aportan pruebas de su tesis en forma de una amplia colección de ejemplos 
lingúísticos, que demuestran cómo conceptualizamos conceptos abstractos 
como tiempo, amor, tristeza, ira y pobreza usando términos de conceptos 
físicos concretos. 

Por ejemplo, Lakoff y Johnson señalan que hablamos del concepto 
abstracto de tiempo con términos que se aplican al concepto más concreto 
de dinero. «Gastamos» o «ahorramos» tiempo. A menudo «no podemos 
desperdiciar el tiempo». A veces el tiempo que gastamos «vale la pena» y 
hemos «utilizado el tiempo de forma provechosa». Quizá conocemos a 
alguien que tiene «los días contados». 

Del mismo modo, conceptualizamos estados emocionales como la 
felicidad y la tristeza en forma de direcciones físicas, hacia arriba y hacia 
abajo. Podemos «sentirnos hundidos» y «caer en una depresión». Nuestro 
estado de ánimo puede «caer a toda velocidad». Nuestros amigos suelen 
«levantarnos el ánimo» y nos dejan con «la moral alta». 

Si vamos más allá, solemos conceptualizar las relaciones sociales en 
términos de temperatura física. «Me dieron una cálida bienvenida». «Me 
miró con frialdad». «Me trató fríamente». Estas expresiones están tan 
asentadas que no nos damos cuenta de que estamos hablando en lenguaje 
metafórico. La afirmación de Lakoff y Johnson de que estas metáforas 
revelan la base física de nuestra comprensión de los conceptos apoya la 
teoría de Lawrence Barsalou de que comprendemos mediante la simulación 
de modelos mentales construidos a partir de nuestro conocimiento básico. 


Los psicólogos han investigado estas ideas a través de muchos 
experimentos fascinantes. Un grupo de científicos observó que la zona del 
cerebro que se activa cuando una persona piensa en el calor físico parece 
ser la misma que cuando piensa en el calor social. Para investigar las 
posibles consecuencias psicológicas, los investigadores llevaron a cabo un 
experimento con un grupo de sujetos voluntarios. Cada sujeto hizo un corto 
viaje en ascensor, acompañado por un miembro del equipo, hasta el 
laboratorio de psicología. Durante el trayecto, el miembro del laboratorio 
pedía al sujeto que sostuviera una taza de café caliente o helado «durante 
unos segundos» mientras él escribía el nombre de esa persona. Los sujetos 
no sabían que eso formaba parte del experimento. En el laboratorio, cada 
sujeto leía una breve descripción de una persona ficticia y se le pedía que 
valorara varios rasgos de su personalidad. Los que habían sostenido el café 
Caliente en el ascensor consideraron a la persona de ficción mucho «más 
cálida» que los que habían sostenido el café helado.[321] 

Otros investigadores han obtenido resultados similares. Además, esta 
vinculación entre «temperatura» física y social también parece existir a la 
inversa: otros psicólogos han descubierto que las experiencias sociales 
«cálidas» o «frías» hacen que los sujetos sientan más calor o frío físico.[322] 

Aunque estos experimentos e interpretaciones siguen siendo objeto de 
controversia en el mundo de la psicología, se puede interpretar que los 
resultados respaldan las teorías de Barsalou y de Lakoff y Johnson: 
entendemos conceptos abstractos en términos de conocimientos físicos 
básicos. Si se activa mentalmente el concepto de calidez en sentido físico 
(por ejemplo, al sostener una taza de café caliente), se activa también el 
concepto de calidez en sentido más abstracto y metafórico, como al juzgar 
la personalidad de alguien, y viceversa. 

Es difícil hablar de comprensión sin hablar de conciencia. Cuando 
empecé a escribir este libro, tenía pensado evitar por completo la cuestión 
de la conciencia, porque está llena de problemas científicos. Pero he 


decidido que me voy a permitir especular un poco. Si nuestra comprensión 
de conceptos y situaciones consiste en realizar simulaciones utilizando 
modelos mentales, quizá el fenómeno de la conciencia —y toda nuestra 
concepción del yo— proviene de nuestra capacidad para construir y simular 
modelos de nuestros propios modelos mentales. No solo puedo simular 
mentalmente, por ejemplo, el acto de cruzar la calle mientras hablo por 
teléfono, sino que puedo simularme mentalmente a mí misma pensándolo y 
puedo predecir lo que quizá voy a pensar a continuación. Tengo un modelo 
de mi propio modelo. Modelos de modelos, simulaciones de simulaciones: 
¿por qué no? Y así como la percepción física del calor, por ejemplo, activa 
una percepción metafórica del calor y viceversa, nuestros conceptos 
relacionados con las sensaciones físicas pueden activar el concepto 
abstracto del yo, que se retroalimenta a través del sistema nervioso para 
producir una percepción física del yo, o de la conciencia, si se prefiere. Esta 
causalidad circular es similar a lo que Douglas Hofstadter llamaba el 
«extraño bucle» de la conciencia, «en el que los niveles simbólico y físico 
se retroalimentan mutuamente y vuelven la causalidad del revés, de forma 
que parece que los símbolos tienen libre albedrío y han adquirido la 
capacidad paradójica de mover las partículas, en lugar de lo contrario».[323] 


Abstracción y analogía 


Hasta ahora he descrito varias ideas de la psicología sobre el conocimiento 
«intuitivo» básico con el que los seres humanos nacen o que adquieren en 
las primeras etapas de la vida, y cómo este conocimiento básico es el 
fundamento de los modelos mentales que forman nuestros conceptos. La 
construcción y el uso de esos modelos mentales se basan en dos 
capacidades humanas fundamentales: la abstracción y la analogía. 

La abstracción es la capacidad de identificar conceptos y situaciones 
particulares como casos de una categoría más general. Concretemos más la 
idea de abstracción (perdón por el juego de palabras). Imaginemos a un 


hombre que es padre y es psicólogo cognitivo. Digamos que su hija se 
llama S. El padre observa crecer a S. y escribe un diario sobre su capacidad 
de abstracción, cada vez más sofisticada. Imaginemos algunas de las 
anotaciones de su diario a lo largo de los años. 

Tres meses: S. puede distinguir entre expresiones faciales que representan 
felicidad y tristeza y las generaliza entre las diversas personas con las que 
se relaciona. Ha abstraído los conceptos de cara feliz y cara triste. 

Seis meses: S. ya reconoce cuándo la gente le está diciendo «adiós con la 
mano» y puede hacer lo mismo. Ha abstraído el concepto visual de saludar 
con la mano y ha aprendido a responder con el «mismo» gesto. 

Dieciocho meses: S. ha abstraído los conceptos de gato y perro (y 
muchas otras categorías) de modo que es capaz de reconocer diferentes 
ejemplos de gatos y perros en fotografías, dibujos y caricaturas, así como en 
la vida real. 

Tres años: S. reconoce letras sueltas del abecedario escritas por diferentes 
personas e impresas. Es más, distingue entre minúsculas y mayúsculas. Sus 
abstracciones de conceptos relacionados con las letras son muy avanzadas. 
Además, ha generalizado su conocimiento de las zanahorias, el brócoli, las 
espinacas, etc., al concepto más abstracto de verdura, que ahora equipara 
con otro concepto abstracto: asqueroso. 

Ocho años: He oído por casualidad a J., la mejor amiga de S., contándole 
a S. que su madre se había olvidado de recogerla después del partido de 
fútbol. S. contestó: «Ah, sí, a mí me pasó exactamente lo mismo. Seguro 
que te enfadaste y tu madre lo pasó fatal». Me he dado cuenta de que ese 
«exactamente lo mismo» era en realidad una situación bastante diferente de 
la que se produjo cuando la cuidadora de S. se olvidó de recogerla en el 
colegio para llevarla a una clase de piano. Al decir «me pasó exactamente 
lo mismo», es evidente que S. ha construido un concepto abstracto que 
consiste más o menos en que una persona que cuida a una niña se olvida de 
recogerla antes o después de una actividad. Además, S. es capaz de seguir 


una línea a partir de su propia experiencia para predecir cómo habrán 
reaccionado J. y la madre de J. 

Trece años: S. empieza a ser una adolescente rebelde. Le he pedido 
muchas veces que limpie su habitación. Hoy me ha gritado: «No puedes 
obligarme; ¡Abraham Lincoln liberó a los esclavos!». Me he enfadado, 
sobre todo por su mala analogía. 

Dieciséis años: El interés de S. por la música va en aumento. A los dos 
nos gusta jugar en el coche a poner una emisora de música clásica a mitad 
de una pieza y ver quién de los dos puede averiguar antes el compositor o la 
época de la pieza. Todavía se me da mejor a mí, pero S. está aprendiendo 
muy bien a reconocer el concepto abstracto de estilo musical. 

Veinte años: S. me ha enviado un largo mensaje de correo electrónico 
sobre su vida en la universidad. Describe su semana como «un 
estudiomaratón, seguido de una comidamaratón y un sueñomaratón». Dice 
que la universidad la está convirtiendo en una «cafeadicta». En el mismo 
correo menciona una protesta estudiantil por el supuesto encubrimiento por 
parte de la universidad del presunto comportamiento sexual inapropiado de 
un profesor muy prestigioso; dice que los estudiantes llaman a la situación 
«acoso-gate». Seguramente, S. ni siquiera se da cuenta de que su mensaje 
ofrece grandes ejemplos de una forma común de abstracción en el lenguaje: 
formar nuevas palabras uniendo varias palabras o añadiendo sufijos para 
denotar situaciones abstractas. Añadir maratón designa una actividad de 
duración o cantidad excesivas; añadir adicta significa que está enganchada; 
y añadir -gate (de Watergate) significa un escándalo o encubrimiento.[324] 

Veintiséis años: S. se ha licenciado en Derecho y la han contratado en un 
prestigioso bufete. Su cliente más reciente (la parte demandada) es una 
empresa de internet que ofrece una plataforma pública de blogs. La empresa 
recibió una demanda por difamación de un hombre (el demandante), porque 
un bloguero que utiliza la plataforma de la empresa escribió comentarios 
difamatorios sobre él. S. alegó ante el jurado que la plataforma de blogs es 


como un «muro» en el que «varias personas han decidido hacer pintadas» y 
que la empresa no es más que la «propietaria del muro», por lo que no es 
responsable. Su argumento convenció al jurado, que falló en favor de la 
parte demandada. Es su primera gran victoria en los tribunales.[325] 

El propósito de mi incursión en el diario imaginario de un padre es 
exponer algunas cuestiones importantes sobre la abstracción y la analogía. 
La abstracción, en cierto sentido, es la base de todos nuestros conceptos, 
incluso desde la más tierna infancia. Algo tan elemental como reconocer la 
cara de la madre —en diferentes condiciones de luz, diferentes ángulos, con 
diferentes expresiones faciales o diferentes peinados— es una proeza de 
abstracción en la misma medida que reconocer un estilo musical o hacer 
una analogía jurídica convincente. Como ilustran estas anotaciones, todo lo 
que llamamos percepción, categorización, reconocimiento, generalización y 
recuerdo («a mí me pasó exactamente lo mismo») entraña el acto de 
abstraer las situaciones que experimentamos. 

La abstracción está estrechamente unida a la construcción de analogías. 
Douglas Hofstadter, que ha estudiado la abstracción y la construcción de 
analogías desde hace décadas, define esta última de forma muy general 
como «la percepción de una esencia común entre dos cosas».[326] Esta 
esencia común puede ser un concepto que tiene nombre (por ejemplo, «cara 
feliz», «saludar con la mano», «gato» o «música barroca»), en cuyo caso lo 
llamamos categoría, o un concepto difícil de verbalizar y creado sobre la 
marcha (por ejemplo, un cuidador que se olvida de recoger a una niña antes 
o después de una actividad, o un propietario de un «espacio de escritura» 
público que no es responsable de lo que allí se «escribe»), en cuyo caso lo 
llamamos analogía. Estos fenómenos mentales son las dos caras de una 
misma moneda. En algunos casos, una idea como «las dos caras de la 
misma moneda» empezará siendo una analogía pero acabará entrando en 
nuestro vocabulario como modismo, lo que hace que la tratemos más bien 
como una categoría. 


En resumen, las analogías, casi siempre inconscientes, son la base de 
nuestra capacidad de abstraer y formar conceptos. Como decían Hofstadter 
y su coautor, el psicólogo Emmanuel Sander: «Sin conceptos no puede 
haber pensamiento, y sin analogías no puede haber conceptos».[327] 

En este capítulo he esbozado algunas ideas procedentes de trabajos 
recientes de psicología sobre los mecanismos mentales con los que los seres 
humanos comprenden y actúan de forma apropiada en las situaciones con 
las que se encuentran. Tenemos un conocimiento básico, en parte innato y 
en parte aprendido durante el desarrollo y durante toda la vida. Nuestros 
conceptos están codificados en el cerebro como modelos mentales que 
podemos «ejecutar» (es decir, simular) para predecir lo que es probable que 
ocurra en cualquier situación o lo que podría ocurrir si sucede cualquier 
alteración que imaginemos. Nuestros conceptos, que van desde simples 
palabras hasta situaciones complejas, se forman mediante abstracción y 
analogía. 

Desde luego, no pretendo haber abarcado todos los elementos de la 
capacidad humana de comprensión. De hecho, muchas personas han 
señalado que los términos comprensión y significado (por no hablar de 
conciencia) no son más que términos mal definidos que utilizamos como 
referentes provisionales, porque todavía no disponemos del lenguaje ni de 
la teoría que necesitamos para hablar de lo que verdaderamente ocurre en el 
cerebro. Marvin Minsky, pionero de la inteligencia artificial, lo explicaba 
así: «Aunque los gérmenes de ideas precientíficas como creer, saber y 
significar son útiles en la vida diaria, técnicamente parecen demasiado 
toscos para sustentar teorías sólidas. [...] Por muy reales que nos parezcan 
hoy yo o comprender, [...] no son más que los primeros pasos hacia 
conceptos mejores». Minsky proseguía señalando que nuestras confusiones 
sobre estas nociones «nacen de una carga de ideas tradicionales 
insuficientes para este empeño tan tremendamente difícil. [...] Estamos 
todavía en un periodo formativo de nuestras ideas sobre la mente».[328] 


Hasta hace poco, la cuestión de los mecanismos mentales que permiten a 
las personas comprender el mundo —-y de si las máquinas también podrían 
tener esa Capacidad de comprensión— era competencia casi exclusiva de 
filósofos, psicólogos, neurocientíficos e investigadores teóricos de la IA, 
que han mantenido debates académicos sobre estas cuestiones durante 
décadas (y en algunos casos siglos), sin prestar demasiada atención a las 
consecuencias en el mundo real. Sin embargo, como he descrito en 
capítulos anteriores, ahora se están utilizando ampliamente para 
aplicaciones del mundo real sistemas de IA que carecen de una 
comprensión similar a la humana. De repente, cuestiones que antes 
quedaban circunscritas al ámbito académico han empezado a tener mucha 
importancia en el mundo real. ¿Hasta qué punto necesitan los sistemas de 
IA una comprensión similar a la humana, o algo que se aproxime, para 
hacer su trabajo de forma fiable y sólida? Nadie sabe la respuesta. Pero 
prácticamente todos los investigadores en IA están de acuerdo en que el 
conocimiento básico «de sentido común» y la capacidad de abstracción y 
analogía sofisticadas están entre los eslabones que faltan para que la IA siga 
avanzando. En el capítulo siguiente describo algunas estrategias para dotar 
a las máquinas de estas capacidades. 


[310] G.-C. Rota, «In Memoriam of Stan Ulam: The Barrier of Meaning», Physica D Nonlinear 
Phenomena 22 (1986), pp. 1-3. 

[311] En una conferencia que di sobre este tema, un estudiante preguntó: «¿Por qué es necesario 
que un sistema de IA tenga una comprensión similar a la humana? ¿Por qué no podemos aceptar una 
IA con otro tipo de comprensión?». Aparte de que no tengo ni idea de lo que significaría «otro tipo 
de comprensión», lo que quiero decir es que si los sistemas de IA van a interactuar con los humanos 
en el mundo, necesitan comprender las situaciones con que se encuentren básicamente de la misma 
manera que los humanos. 

[312] El término core knowledge, «conocimiento básico», lo han utilizado sobre todo la psicóloga 
Elizabeth Spelke y sus colaboradores; por ejemplo, véase E. S. Spelke y K. D. Kinzler, «Core 
Knowledge», Developmental Science 10, n.° 1 (2007), pp. 89-96. Muchos otros científicos cognitivos 
han analizado ideas similares. 


[313] Los psicólogos utilizan el término intuitivo porque este conocimiento básico está muy 
arraigado en nuestras mentes desde los primeros años; se convierte en una obviedad para nosotros y, 
en su mayor parte, permanece en el subconsciente. Numerosos psicólogos han demostrado que hay 
aspectos de las creencias intuitivas típicas del ser humano sobre física, probabilidad y otras áreas que 
en realidad son erróneos. Véanse, por ejemplo, A. Tversky y D. Kahneman, «Judgment Under 
Uncertainty: Heuristics and Biases», Science 185, n.° 4157 (1974), pp. 1124-1131; y B. Shanon, 
«Aristotelianism, Newtonianism, and the Physics of the Layman», Perception 5, n.° 2 (1976), pp. 
241-243. 

[314] Lawrence Barsalou ofrece un argumento detallado a favor de esas simulaciones mentales en 
L. W. Barsalou, «Perceptual Symbol Systems», Behavioral and Brain Sciences 22 (1999), pp. 577- 
660. 

[315] Douglas Hofstadter señala que cuando nos encontramos con una situación (o cuando la 
recordamos, la imaginamos o leemos sobre ella), la representación de esa situación en nuestra mente 
incluye un «halo» de posibles variaciones de esa situación que él llama «una esfera contrafactual 
implícita», que incluye «las cosas que nunca han pasado pero que no podemos evitar ver de todos 
modos». D. R. Hofstadter, Metamagical Themas, Nueva York: Basic Books, 1985, p. 247. 

[316] L. W. Barsalou, «Grounded Cognition», Annual Review of Psychology 59 (2008), pp. 617- 
645. 

[317] L. W. Barsalou, «Situated Simulation in the Human Conceptual System», Language and 


Cognitive Processes 18, n.°° 5-6 (2003), pp. 513-562. 

[318] A. E. M. Underwood, «Metaphors», Grammarly (blog), consultado el 17 de diciembre de 
2018, www.grammarly.com/blog/metaphor. 

[319] La primera cita es de Romeo y Julieta, acto II, escena I, y la segunda de Macbeth acto V, 
escena V. Las traducciones son de la traductora. 

[320] G. Lakoff y M. Johnson, Metaphors We Live By, Chicago: University of Chicago Press, 1980 
[trad. cast.: Metáforas de la vida cotidiana, Madrid: Cátedra, 2017]. 

[321] L. E. Williams y J. A. Bargh, «Experiencing Physical Warmth Promotes Interpersonal 
Warmth», Science 322, n.° 5901 (2008), pp. 606-607. 

[322] C. B. Zhong y G. J. Leonardelli, «Cold and Lonely: Does Social Exclusion Literally Feel 
Cold?», Psychological Science 19, n.° 9 (2008), pp. 838-842. 

[323] D. R. Hofstadter, I Am a Strange Loop, Nueva York: Basic Books, 2007 [trad. cast.: Yo soy 
un extraño bucle, Barcelona: Tusquets, 2008]. La cita es de la solapa del libro. Mi descripción 
también se hace eco de las ideas propuestas por el filósofo Daniel Dennett en su libro Consciousness 
Explained, Nueva York: Little, Brown, 1991 [trad. cast.: La conciencia explicada, Barcelona: Paidós, 
19951. 

[324] Este tipo de «productividad lingiiistica» se analiza en D. Hofstadter y E. Sander, Surfaces 
and Essences: Analogy as the Fuel and Fire of Thinking, Nueva York: Basic Books, 2013, p. 129, y 
en A. M. Zwicky y G. K. Pullum, «Plain Morphology and Expressive Morphology», en Annual 
Meeting of the Berkeley Linguistics Society (1987), 13:330-340. 


[325] He tomado prestado este argumento de un caso legal real. Véase «Blogs as Graffiti? Using 
Analogy and Metaphor in Case Law»,  IdeaBlawg, 17 de marzo de 2012, 
www.ideablawg.ca/blog/2012/3/17/blogs-as-graffiti-using-analogy-and-metaphor-in-case-law.html. 

[326] D. R. Hofstadter, «Analogy as the Core of Cognition», Presidential Lecture, Stanford 
University (2009), consultado el 18 de diciembre de 2018, www.youtube.com/watch? 
v=n8m71FQ3njk. 

[327] Hofstadter y Sander, Surfaces and Essences, p. 3. 

[328] M. Minsky, «Decentralized Minds», Behavioral and Brain Sciences 3, n.° 3 (1980), pp. 439- 
440. 
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Conocimiento, abstracción y 
analogía en la inteligencia artificial 


qe los años cincuenta, muchas personas del mundo de la IA han 
investigado formas de incorporar aspectos cruciales del pensamiento 
humano —como el conocimiento intuitivo básico, la abstracción y la 
creación de analogías— a la inteligencia automática para conseguir que los 
sistemas de inteligencia artificial comprendan realmente las situaciones con 
las que se encuentran. En este capítulo voy a describir varios intentos en 
este sentido, incluidos algunos de mis propios trabajos pasados y actuales. 


Conocimiento básico para ordenadores 


En los primeros tiempos de la IA, antes de que el aprendizaje automático y 
las redes neuronales se impusieran, los investigadores de la IA codificaban 
manualmente las reglas y los conocimientos que iba a necesitar un 
programa para ejecutar sus tareas. A muchos de los primeros pioneros de la 
IA les parecía totalmente razonable que este método de «integración» 
pudiera absorber una parte del conocimiento de sentido común de los 
humanos suficiente para lograr una inteligencia de nivel humano en los 
ordenadores. 


El intento más famoso y duradero de codificar manualmente el 
conocimiento de sentido común para incorporarlo a las máquinas es el 
proyecto Cyc de Douglas Lenat. Lenat, estudiante de doctorado y más tarde 
profesor del Laboratorio de IA de la Universidad de Stanford, se hizo 
famoso en la comunidad de investigadores de IA de los años setenta 
creando programas que simulaban la forma de inventar nuevos conceptos 
de los seres humanos, sobre todo en matemáticas.[329] Sin embargo, tras 
más de una década de trabajo sobre este tema, Lenat llegó a la conclusión 
de que para que la IA progresara verdaderamente, las máquinas debían 
tener sentido común. De manera que decidió crear una inmensa colección 
de datos sobre la realidad y las reglas lógicas que sirvieran a los programas 
para manejar esos datos y deducir los que necesitaban. En 1984, Lenat 
abandonó su puesto académico para fundar una empresa (hoy llamada 
Cycorp) dedicada a este objetivo. 

El nombre Cyc (pronunciado ‘saic’) pretende evocar la palabra 
enciclopedia, pero, a diferencia de las enciclopedias con las que estamos 
familiarizados, el objetivo de Lenat era que Cyc contuviera todo el 
conocimiento no escrito que tienen los seres humanos o, por lo menos, el 
suficiente para que los sistemas de IA pudieran tener un nivel humano en 
visión, lenguaje, planificación, razonamiento y otras tareas. 

Cyc es un sistema simbólico de IA como los que describí en el capitulo 
1: una colección de afirmaciones («aserciones») sobre entidades 
particulares o conceptos generales, escritas en un lenguaje informático 
basado en la lógica. He aquí algunos ejemplos de aserciones de Cyc 
(traducidas del lenguaje lógico al normal):[330] 

— Una entidad no puede estar en más de un lugar al mismo tiempo. 


> Los objetos envejecen un año cada año. 
— Cada persona tiene una madre que es una persona de sexo femenino. 


El proyecto Cyc también incluye complejos algoritmos para hacer 
inferencias lógicas sobre aserciones. Por ejemplo, Cyc puede determinar 


que si estoy en Portland, no estoy en Nueva York, porque soy una entidad, 
Portland y Nueva York son lugares, y una entidad no puede estar en más de 
un lugar a la vez. Cyc también cuenta en su colección con muchos métodos 
para manejar aserciones incoherentes o inciertas. 

Las aserciones de Cyc las han codificado manualmente unos humanos 
(en concreto, los empleados de Cycorp) o las ha deducido lógicamente el 
sistema a partir de aserciones existentes.[331] ¿Cuántas aserciones se 
necesitan para capturar el conocimiento de sentido común de los humanos? 
En una conferencia pronunciada en 2015, Lenat dijo que Cyc tenía en ese 
momento alrededor de quince millones de aserciones, y calculó que 
«probablemente tenemos en torno al 5 por ciento de lo que a la hora de la 
verdad vamos a necesitar».[332] 

La filosofía en la que se fundamenta Cyc tiene mucho en común con la 
de los sistemas expertos de los primeros tiempos de la IA. Quizá recuerden 
lo que dije en el capítulo 2 sobre el sistema experto en diagnóstico médico 
MYCIN. Los desarrolladores de MYCIN entrevistaron a «expertos» — 
médicos— para obtener unas reglas que permitieran al sistema hacer 
diagnósticos. Después, los desarrolladores tradujeron esas reglas a un 
lenguaje informático basado en la lógica para que el sistema pudiera hacer 
inferencias lógicas. En Cyc, los «expertos» son personas que traducen 
manualmente sus conocimientos sobre el mundo a enunciados lógicos. La 
«base de conocimientos» de Cyc es mayor que la de MYCIN, y sus 
algoritmos de razonamiento lógico son más sofisticados, pero los proyectos 
se basan en la misma fe de fondo: que es posible capturar la inteligencia 
mediante reglas programadas por humanos que trabajen con una colección 
suficientemente amplia de conocimientos explícitos. En el panorama actual 
de la IA, dominado por el aprendizaje profundo, el proyecto Cyc es una de 
las últimas iniciativas de IA simbólica a gran escala que quedan.[333] 

¿Es posible que, con el tiempo y el esfuerzo suficientes, los ingenieros de 
Cycorp consigan capturar todo el conocimiento humano, o al menos el 


suficiente, independientemente de cuánto sea eso? Lo dudo. Si el 
conocimiento de sentido común es el conocimiento que todos los seres 
humanos tienen pero que no está escrito en ninguna parte, entonces gran 
parte de ese conocimiento es subconsciente; ni siquiera sabemos que lo 
tenemos. Ahí se incluye gran parte de nuestro conocimiento intuitivo básico 
sobre física, biología y psicología, en el que se apoyan todos nuestros 
conocimientos generales sobre el mundo. Si no somos conscientes de que 
sabemos algo, no podemos ser los «expertos» encargados de suministrar 
explícitamente ese conocimiento a un ordenador. 

Además, como expliqué en el capítulo anterior, nuestro conocimiento de 
sentido común se rige por la abstracción y la analogía. Lo que llamamos 
sentido común no puede existir sin esas aptitudes. Pero la abstracción y la 
construcción de analogías no son habilidades humanas que puedan ser 
capturadas por el inmenso conjunto de datos de Cyc ni, en mi opinión, por 
inferencia lógica en general. 

En el momento de escribir este libro, el proyecto Cyc se encuentra ya en 
su Cuarta década. Tanto Cycorp como su empresa derivada, Lucid, están 
comercializando Cyc ofreciendo un menú de aplicaciones especializadas 
para empresas. Las webs de las dos empresas presentan «ejemplos de 
éxito»: aplicaciones de Cyc en finanzas, extracción de petróleo y gas, 
medicina y otras áreas concretas. En cierto sentido, la trayectoria de Cyc se 
parece a la de Watson de IBM: las dos empezaron como un intento de 
investigación fundamental en IA, de amplio alcance y grandes ambiciones, 
y terminaron como una serie de productos comerciales con mensajes 
publicitarios exagerados (por ejemplo, Cyc «aporta a los ordenadores una 
capacidad de comprensión y razonamiento de tipo humano»),[334] pero con 
un enfoque más limitado y poco general y con escasa transparencia sobre 
los verdaderos resultados y capacidades del sistema. 

Hasta ahora, Cyc no ha tenido mucha repercusión en el mundo de la IA. 
Además, algunos profesionales han criticado seriamente ese enfoque. Por 


ejemplo, el profesor de IA de la Universidad de Washington Pedro 
Domingos dijo que Cyc era «el fracaso más lamentable de la historia de la 
[A ».[335] El especialista del MIT en robótica Rodney Brooks no fue mucho 
más amable: «Aunque [Cyc] ha sido una labor heroica, no ha conseguido un 
sistema de IA capaz de tener ni siquiera una sencilla comprensión del 
mundo».[336] 

¿Y si proporcionáramos a los ordenadores el conocimiento subconsciente 
sobre el mundo que adquirimos en la infancia y la niñez, y que está en la 
base de todos nuestros conceptos? ¿Cómo podríamos, por ejemplo, 
enseñarle a un ordenador la física intuitiva de los objetos? Varios grupos de 
investigación se han propuesto hacerlo y están construyendo sistemas de IA 
capaces de aprender un poco sobre la física de causa-efecto del mundo, a 
partir de vídeos, videojuegos y otros tipos de realidad virtual.[337] Estas 
estrategias son interesantes, pero no han hecho más que dar pasos de bebé 
—en comparación con lo que sabe un bebé de verdad— hacia el desarrollo 
de un conocimiento básico intuitivo. 

Cuando el aprendizaje profundo empezó a exhibir su extraordinaria serie 
de éxitos, muchas personas, dentro y fuera del mundo de la JA, pensaron 
con optimismo que estábamos cerca de conseguir una IA general de nivel 
humano. Sin embargo, como he descrito a lo largo de este libro, a medida 
que los sistemas de aprendizaje profundo se utilizan más, están mostrando 
fallos en su «inteligencia». Ni siquiera los sistemas más eficaces son 
capaces de generalizar fuera de su estrecho ámbito de especialización, 
formar abstracciones o aprender sobre las relaciones causa-efecto.[338] 
Además, sus errores no humanos y su vulnerabilidad ante los llamados 
ejemplos antagónicos demuestran que en realidad no entienden los 
conceptos que intentamos enseñarles. Se sigue debatiendo si estos fallos se 
pueden subsanar con más datos o redes más profundas, o si falta algo más 
fundamental.[339] 


En los últimos tiempos he visto una especie de giro en la conversación: 
cada vez más, la comunidad de la IA está volviendo a hablar de la crucial 
importancia de proporcionar a las máquinas sentido común. En 2018, Paul 
Allen, cofundador de Microsoft, duplicó el presupuesto de su instituto de 
investigación, el Allen Institute for Al, específicamente para estudiar el 
sentido común. Los organismos oficiales de financiación también están 
empezando a cambiar: en 2018, la Agencia de Proyectos de Investigación 
Avanzada para la Defensa (Defense Advanced Research Projects Agency, 
DARPA), uno de los principales fondos de financiación del Gobierno 
estadounidense para la investigación en IA, hizo público su plan para 
proporcionar una financiación sustancial a la investigación sobre el sentido 
común en la IA, con esta declaración: «[Hoy en día] el razonamiento de las 
máquinas es estrecho y muy especializado; siguen sin tener capacidad de 
razonamiento general y de sentido común. El programa [de financiación] 
construirá representaciones del conocimiento más parecidas a las humanas 
—por ejemplo, representaciones basadas en la percepción—, para 
suministrar a las máquinas un razonamiento de sentido común sobre el 
mundo físico y los fenómenos espaciotemporales».[340] 


La abstracción ¡idealizada 


«Formar abstracciones» era una de las habilidades fundamentales de la IA 
que figuraban en la propuesta de IA presentada en Dartmouth en 1955 y que 
describí en el capítulo 1. Sin embargo, hacer que las máquinas puedan 
formar abstracciones conceptuales similares a las humanas sigue siendo un 
problema casi completamente sin resolver. 
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Figura 45. Cuatro ejemplos de problemas de Bongard. Para cada problema, la tarea consiste 
en determinar qué conceptos distinguen las seis casillas de la izquierda de las seis casillas 
de la derecha. Por ejemplo, para el problema 2 de Bongard, los conceptos son grande y 
pequeño. 


La abstracción y la analogía son justo los temas que me llevaron 
inicialmente al campo de la IA. Me sentí interesada sobre todo cuando me 
topé con una serie de rompecabezas visuales llamados problemas de 
Bongard. Estos rompecabezas fueron formulados por un informático ruso, 
Mijaíl Bongard, que en 1967 publicó un libro (en ruso) titulado 
Reconocimiento de patrones.[341] Aunque el libro, en realidad, describía la 
propuesta de Bongard de un sistema parecido al perceptrón para el 
reconocimiento visual, la parte que más influencia ha tenido es el apéndice, 
en el que Bongard proponía cien problemas para que los resolvieran los 
programas de IA. La figura 45 muestra cuatro problemas del conjunto de 
Bongard.[342] 


Cada problema tiene doce casillas: seis a la izquierda y seis a la derecha. 
Las seis casillas de la izquierda de cada problema plasman el «mismo» 
concepto, las seis casillas de la derecha plasman un concepto relacionado, y 
los dos conceptos diferencian a la perfección los dos conjuntos. El 
problema consiste en encontrar los dos conceptos. Por ejemplo, en la figura 
45, los conceptos son (en el orden de las agujas del reloj) grande frente a 
pequeño; blanco frente a negro (o vacío frente a relleno, si se prefiere); lado 
derecho frente a lado izquierdo; y vertical frente a horizontal. 
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figura 46. Otros seis problemas de Bongard. 


Los problemas de la figura 45 son relativamente fáciles de resolver. 
Bongard organizó sus cien problemas más o menos por orden de dificultad. 
Si quieren entretenerse, la figura 46 presenta otros seis problemas de la 
última parte de la lista. Daré las respuestas aquí a continuación. 

Bongard diseñó cuidadosamente estos rompecabezas de forma que para 
resolverlos hicieran falta algunas de las capacidades de abstracción y 
construcción de analogías que un ser humano o un sistema de inteligencia 
artificial necesitan en el mundo real. En un problema de Bongard, se puede 


considerar que cada una de las doce casillas es una «situación» idealizada 
en miniatura, con diferentes objetos, atributos y relaciones. Las situaciones 
de la izquierda comparten una «esencia» (por ejemplo, «grande»); las 
situaciones de la derecha comparten una esencia opuesta (por ejemplo, 
«pequeña»). Y en los problemas de Bongard, como en la vida real, 
identificar la esencia de una situación a veces es algo muy sutil. En palabras 
del científico cognitivo Robert French, la abstracción y la analogía 
consisten en percibir «la sutileza de la igualdad».[343] 

Para descubrir esa sutil igualdad, hay que determinar qué atributos de la 
situación son relevantes y cuáles se pueden pasar por alto. En el problema 2 
(figura 45), no importa si la figura es blanca o negra, ni dónde está colocada 
en la casilla, ni si es un triángulo, un círculo o ninguna otra cosa. Lo único 
que importa es el tamaño. Por supuesto, el tamaño no siempre importa; para 
los demás problemas de la figura 45, el tamaño es irrelevante. ¿Cómo 
sabemos discernir los humanos con tanta rapidez cuáles son los atributos 
relevantes? ¿Cómo podríamos conseguir que lo haga un ordenador? 

Para complicar aún más las cosas a las máquinas, los conceptos 
relevantes pueden codificarse de forma abstracta y difícil de percibir, como 
pasa con los conceptos tres y cuatro del problema 91. En algunos 
problemas, puede que a un sistema de IA no le sea nada fácil averiguar qué 
cuenta como objeto, como en el problema 84 (exterior frente a interior), en 
el que los «objetos» relevantes están compuestos de objetos más pequeños 
(aquí, círculos pequeños). En el problema 98, los objetos están 
«camuflados»: los humanos pueden ver con facilidad qué son las figuras, 
pero las máquinas lo tienen más difícil, porque pueden tener dificultades 
para separar el primer plano del fondo. 

Los problemas de Bongard también ponen a prueba nuestra capacidad de 
percibir nuevos conceptos sobre la marcha. El problema 18 es un buen 
ejemplo. El concepto común de las casillas de la izquierda no es fácil de 
verbalizar; es algo así como «objeto con una constricción o “cuello”». Pero 


aunque nunca hayamos pensado en algo así, podemos reconocerlo 
rápidamente en el problema. Del mismo modo, en el problema 19, hay un 
nuevo concepto: algo así como «objeto con cuello horizontal» a la izquierda 
frente a «objeto con cuello vertical» a la derecha. Abstraer conceptos 
nuevos y difíciles de verbalizar —otro ejemplo de lo sutil que es la 
similitud— es algo que una persona hace muy bien, pero que ningún 
sistema de IA actual puede hacer de forma general. 

El libro de Bongard, publicado en inglés en 1970, era bastante arduo y, al 
principio, poca gente supo de su existencia. Sin embargo, Douglas 
Hofstadter, que se había encontrado con el libro en 1975, quedó muy 
impresionado por los cien problemas del apéndice y escribió con detalle 
sobre ellos en su propio libro Gódel, Escher, Bach. Ahí es donde los vi por 
primera vez. 

Desde niña, siempre me han gustado los rompecabezas, especialmente 
los que tienen que ver con la lógica o los patrones; cuando leí GEB, los 
problemas de Bongard me gustaron especialmente. También me intrigaron 
las ideas de Hofstadter esbozadas en GEB sobre cómo crear un programa 
que resolviera los problemas de Bongard emulando la percepción y la 
creación de analogías de los humanos. Es posible que la lectura de ese 
capitulo fuera lo que me empujó a ser investigadora de IA. 

Los problemas de Bongard han cautivado a muchas otras personas, y 
varios investigadores han creado programas de IA que intentan resolverlos. 
La mayoría de estos programas hacen suposiciones simplificadoras (por 
ejemplo, limitan el conjunto de formas y relaciones de formas permitidas, o 
ignoran por completo los aspectos visuales y parten de una descripción de 
las imágenes elaborada por un humano). Cada programa ha conseguido 
resolver un subconjunto de problemas específicos, pero ninguno ha 
demostrado que sus métodos pudieran generalizarse como los de los 
humanos.[344] 


¿Qué pasa con las redes neuronales convolucionales? Con los resultados 
tan espectaculares que han obtenido en la clasificación de objetos (por 
ejemplo, en el enorme desafío de reconocimiento visual de ImageNet que 
describí en el capítulo 5), ¿deberíamos confiar en que se pueda entrenar a 
una red de este tipo para resolver los problemas de Bongard? Sería 
imaginable plantear un problema de Bongard como una especie de 
problema de «clasificación» para una ConvNet, como se ilustra en la figura 
47: las seis casillas de la izquierda podrían considerarse ejemplos de 
entrenamiento de la «clase 1», y las seis casillas de la derecha serían 
ejemplos de entrenamiento de la «clase 2». Ahora daríamos al sistema un 
nuevo ejemplo de «prueba». ¿Debe clasificarlo como clase 1 o clase 2? 


Ejemplos de entrenamiento Ejemplo de prueba 


Clase 1 Clase 2 Clase ? 


Figura 47. Una ilustración de cómo un problema de Bongard podría plantearse como un 
problema de clasificación, con doce ejemplos de entrenamiento y un nuevo ejemplo de 
«prueba». 


Un obstáculo inmediato es que un conjunto de doce ejemplos de 
entrenamiento es ridículamente insuficiente para entrenar una ConvNet; ni 
siquiera mil doscientos bastarían. Por supuesto, eso es parte de lo que 
quiere plantear Bongard: los humanos podemos reconocer fácilmente los 


conceptos relevantes con solo doce ejemplos. ¿Cuántos datos de 
entrenamiento necesitaría aprender una ConvNet para resolver un problema 
de Bongard? Aunque nadie ha hecho todavía un estudio sistemático sobre la 
resolución de problemas de Bongard con ConvNet, un grupo de 
investigadores analizó el rendimiento de las ConvNet de última generación 
en una tarea de diferenciar entre «igual frente a distinta», con imágenes 
similares a las de la figura 47.[345] La clase 1 incluía imágenes que tenían 
dos figuras de la misma forma; la clase 2 incluía imágenes con dos figuras 
de formas diferentes. Ahora bien, en lugar de usar doce imágenes, los 
investigadores entrenaron las ConvNet con veinte mil ejemplos para cada 
clase, la 1 («igual») y la 2 («distinta»). Tras el entrenamiento, se probó cada 
ConvNet con diez mil ejemplos nuevos. Todos los ejemplos se generaron 
automáticamente utilizando muchos tipos diferentes de formas. En los 
problemas de «igual frente a distinta», las ConvNet entrenadas no dieron 
más que unos resultados ligeramente superiores a las suposiciones 
aleatorias, mientras que los humanos evaluados por los autores obtuvieron 
una puntuación cercana al 100 por ciento. En resumen, las ConvNet 
actuales, aunque tienen una gran capacidad de aprender los elementos 
necesarios para reconocer objetos de ImageNet o elegir jugadas en go, no 
tienen las habilidades necesarias para hacer los tipos de abstracción y 
creación de analogías imprescindibles, ni siquiera en los problemas 
idealizados de Bongard, y mucho menos en el mundo real. Parece que los 
tipos de características que estas redes pueden aprender no bastan para 
formar esas abstracciones, por muchos ejemplos con los que se entrene una 
red. Las ConvNet no son las únicas que no tienen lo necesario: ningún 
sistema de IA actual tiene nada vagamente similar a estas capacidades 
humanas fundamentales. 


Símbolos activos y construcción de analogías 


Después de leer Gódel, Escher, Bach y decidir dedicarme a la investigación 
en IA, busqué a Douglas Hofstadter, con la esperanza de poder trabajar en 
algo parecido a los problemas de Bongard. Por suerte, después de insistir un 
poco, conseguí convencerle de que me permitiera entrar en su grupo de 
investigación. Hofstadter me explicó que su grupo estaba creando 
programas informáticos inspirados en la forma que tienen los seres 
humanos de comprender y establecer analogías entre situaciones. Tras 
licenciarse en Física (disciplina en la que la idealización, como el 
movimiento sin fricción, es un principio fundamental), Hofstadter estaba 
convencido de que la mejor forma de investigar un fenómeno —en este 
caso, cómo crean analogías los seres humanos— era estudiarlo en su forma 
más idealizada. La investigación en IA utiliza muchas veces los llamados 
micromundos: terrenos idealizados, como los problemas de Bongard, en los 
que un investigador puede desarrollar ideas antes de probarlas en ámbitos 
más complejos. Para su estudio sobre la construcción de analogías, 
Hofstadter desarrolló un micromundo aún más idealizado que los problemas 
de Bongard: rompecabezas de analogías con cadenas de letras. He aquí un 
ejemplo: 


PROBLEMA 1: Supongamos que la cadena de letras abc se cambia por abd. ¿Cómo se cambiaría 
la cadena pqrs según «la misma regla»? 


La mayoría de la gente responde «pqrt», porque deduce una regla que es 

más o menos «sustituir la letra más a la derecha por la que la sucede en el 

abecedario». Por supuesto, se podrían inferir otras reglas posibles, que 

generarían diferentes respuestas. Estas son algunas respuestas alternativas: 
pqrd: «Sustituir la letra más a la derecha por d». 


pqrs: «Sustituir todas las c por d. En pqrs no hay c, así que no cambia nada». 
abd: «Sustituir cualquier cadena por la cadena abd». 


Estas respuestas alternativas pueden parecer demasiado literales, pero no 
hay ningún argumento estrictamente lógico que diga que están mal. De 


hecho, se podrían deducir infinitas reglas posibles. ¿Por qué la mayoría de 
la gente está de acuerdo en que una de ellas («pqrt») es la mejor? Parece 
que nuestros mecanismos mentales de abstracción —que evolucionaron 
para promover nuestra supervivencia y reproducción en el mundo real — se 
trasladan a este micromundo idealizado. 

He aquí otro ejemplo: 


PROBLEMA 2: Supongamos que la cadena abc se cambia por abd. ¿Cómo se cambiaría la cadena 
ppqqrrss según «la misma regla»? 


Incluso en este sencillo micromundo alfabético, la igualdad puede ser 
bastante sutil, al menos para una máquina. En el problema 2, una aplicación 
literal de la regla «sustituir la letra más a la derecha por la que la sucede» 
daría como resultado ppqqrrst, pero a la mayoría de la gente esta respuesta 
le parece demasiado literal; en lugar de ello, la gente tiende a responder 
«ppagrrtt», porque percibe una correspondencia entre los pares de letras en 
ppagrrss y las letras individuales en abc.¡346] Los seres humanos tendemos 
bastante a agrupar objetos idénticos o similares. 

El problema 2 ilustra, en este micromundo, la noción general de 
deslizamiento conceptual, una idea fundamental en la construcción de 
analogías.[347] Cuando se intenta percibir la «igualdad» esencial de dos 
situaciones diferentes, algunos conceptos de la primera situación tienen que 
«deslizarse», es decir, ser sustituidos por conceptos relacionados en la 
segunda situación. En el problema 2, el concepto letra se desliza a grupo de 
letras; por eso, la regla «sustituir la letra de más a la derecha por la que la 
sucede» se convierte en «sustituir el grupo de letras de más a la derecha por 
el que lo sucede». 

Veamos ahora este problema: 


PROBLEMA 3: Supongamos que la cadena abc se cambia por abd. ¿Cómo se cambiaría la cadena 
xyz según «la misma regla»? 


La mayoría de la gente responde «xya», porque se supone que la «sucesora» 
de z es a. Pero imaginemos un programa informático que no tiene el 
concepto de abecedario «circular» y para el que, por tanto, la letra z no tiene 
sucesora. ¿Qué otras respuestas serían razonables? Cuando se lo pregunté a 
la gente, obtuve muchas respuestas diferentes, algunas de ellas muy 
imaginativas. Curiosamente, las respuestas solían evocar metáforas físicas: 
por ejemplo, «xy» (la z «cae por el precipicio»), «xyy» (la z «rebota hacia 
atrás») y «wyz». La imagen que inspiraba esta última respuesta era que a y 
z están cada una «atrapadas contra una pared» en los extremos opuestos del 
abecedario, de modo que desempeñan papeles similares; por eso, si el 
concepto primera letra del alfabeto se desliza a última letra del alfabeto, 
entonces la letra más a la derecha se desliza a la letra más a la izquierda y la 
sucesora se desliza a la predecesora. El problema 3 ilustra cómo construir 
una analogía puede desencadenar una cascada de deslizamientos mentales. 

El micromundo de las cadenas de letras hace muy visible la idea de 
deslizamiento. En otros ámbitos, puede ser más sutil. Por ejemplo, si nos 
fijamos en el problema 91 de Bongard de la figura 46, en el que la esencia 
común de las seis casillas de la izquierda es tres, los objetos que representan 
el concepto tres se deslizan de una casilla a otra; por ejemplo, de segmentos 
de línea (arriba a la izquierda) a cuadrados (en el centro a la izquierda), y 
luego a un concepto difícil de verbalizar en la casilla inferior izquierda 
(¿algo así como «las púas de un peine», quizá?). El deslizamiento 
conceptual también tenía un papel crucial en las diferentes abstracciones 
que la hija imaginaria S. (del capítulo anterior) hacía a lo largo de los años; 
por ejemplo, en su analogía jurídica, el concepto de sitio web se deslizaba al 
concepto de muro, y el concepto de escribir un blog se deslizó al concepto 
de hacer pintadas con espray. 

Hofstadter concibió un programa informático, llamado Copycat, que 
resolvería este tipo de problemas utilizando algoritmos muy generales, 
similares a los que él creía que utilizaban los humanos cuando hacían 


analogías en cualquier ámbito. El nombre Copycat procede de la idea de 
que el humano (el creador de analogías) debe resolver estos problemas 
«haciendo lo mismo», es decir, «copiando». La situación original (por 
ejemplo, abc) cambia de alguna manera, y entonces el sujeto tiene que 
hacer el «mismo» cambio en la nueva situación (por ejemplo, ppqqrrss). 

Cuando me incorporé al grupo de investigación de Hofstadter, me 
encargó que trabajara con él en el desarrollo del programa Copycat. Como 
sabe cualquiera que haya pasado por ello, el camino hacia el doctorado 
consiste fundamentalmente en mucho trabajo salpicado de contratiempos 
frustrantes y (al menos en mi caso) una corriente subterránea constante de 
dudas sobre una misma. Pero de vez en cuando hay momentos de éxitos 
estimulantes, como cuando el programa en el que llevas cinco años 
trabajando por fin funciona. Voy a saltarme aquí todas las dudas, los 
contratiempos y las incontables horas de trabajo para ir directamente al 
final, cuando presenté mi tesis en la que describía el programa Copycat, que 
era Capaz de resolver varias familias de problemas de analogías con cadenas 
de letras de forma (en mi opinión) similar a la humana. 

Copycat no era ni un programa simbólico basado en reglas ni una red 
neuronal, aunque incluía aspectos de la IA simbólica y de la subsimbólica. 
Copycat resolvía problemas de analogía mediante una interacción continua 
entre los procesos de percepción del programa (es decir, darse cuenta de los 
elementos de un problema concreto de analogía con cadena de letras) y sus 
conceptos previos (por ejemplo, letra, grupo de letras, sucesor, predecesor, 
igual y opuesto). Los conceptos del programa estaban estructurados para 
emular algo parecido a los modelos mentales que describí en el capítulo 
anterior. En concreto, se basaban en el concepto de Hofstadter de «símbolos 
activos» en la cognición humana.[348] La arquitectura de Copycat era 
complicada y no voy a describirla aquí (aunque sí ofrezco algunas 
referencias sobre ella en las notas).[349 A la hora de la verdad, aunque 
Copycat podía resolver muchos problemas de analogía con cadena de letras 


(incluidos los ejemplos que he presentado antes, además de muchas 
variaciones), el programa se limitaba a arañar la superficie de su ámbito, 
muy abierto. Por ejemplo, aquí hay dos problemas que mi programa no 
pudo resolver: 


PROBLEMA 4: Si azbzczd cambia a abcd, ¿a qué cambia pxqxrxsxt? 


PROBLEMA 5: Si abc cambia a abd, ¿a qué cambia ace? 


Para ambos problemas es necesario reconocer nuevos conceptos sobre la 
marcha, una habilidad de la que Copycat carecía. En el problema 4, las z y 
las x desempeñan el mismo papel, algo así como «las letras de más que hay 
que borrar para ver la secuencia alfabética», lo que genera la respuesta 
«pqrst». En el problema 5, la secuencia ace es similar a la secuencia abc, 
salvo que en lugar de una secuencia de «sucesores» es una secuencia de 
«dobles sucesores», lo que genera la respuesta «acg». Me habría costado 
poco dotar a Copycat de la capacidad de contar el número de letras que hay, 
por ejemplo, entre a y c y c y e, pero no quería integrar aptitudes muy 
específicas del ámbito de las cadenas de letras. El objetivo de Copycat era 
que sirviera de banco de pruebas para ideas generales sobre la analogía, no 
que fuera un «creador de analogías entre cadenas de letras» integral. 


Metacognición en el mundo de las cadenas de 
letras 


Un aspecto esencial de la inteligencia humana —del que no se habla mucho 
en la IA hoy en día— es su capacidad de percibir y reflexionar sobre el 
propio pensamiento. En psicología, esto se llama metacognición. ¿Alguna 
vez han intentado en vano resolver un problema y han acabado 
reconociendo que estaban repitiendo los mismos procesos de pensamiento 
infructuosos? A mí me pasa con frecuencia, pero, una vez que identifico el 
patrón, a veces consigo salir del atasco. Copycat, como todos los demás 
programas de IA de los que he hablado en este libro, no tenía ningún 


mecanismo de autopercepción, y eso perjudicaba su rendimiento. A veces, 
el programa se quedaba atascado por intentar una y otra vez resolver un 
problema de forma equivocada, y nunca se daba cuenta de que ya había 
recorrido un camino similar sin éxito. 


Figura 48. Cuatro ejemplos sencillos de «pasear a un perro». 


James Marshall, por aquel entonces estudiante de posgrado en el grupo 
de investigación de Douglas Hofstadter, asumió el proyecto de conseguir 
que Copycat reflexionara sobre su propio «pensamiento». Creó un 
programa llamado Metacat, que no solo resolvía problemas de analogía en 
el ámbito de las cadenas de letras que dominaba Copycat, sino que también 
trataba de ver patrones en lo que hacía. Cuando el programa se ejecutaba, 
generaba un comentario sobre los conceptos que reconocía en su propio 
proceso de resolución de problemas.[350) Como ocurría con Copycat, 


Metacat tenía un comportamiento fascinante, pero se quedaba muy lejos de 
la capacidad de los humanos para reflexionar sobre sí mismos. 


Identificar situaciones visuales 


Mis investigaciones actuales se centran en el desarrollo de un sistema de IA 
que utilice la analogía para identificar con flexibilidad situaciones visuales, 
es decir, conceptos visuales que incluyan diversas entidades y sus 
relaciones. Por ejemplo, cada una de las cuatro imágenes de la figura 48 es 
un ejemplo de una situación visual que podríamos llamar «pasear a un 
perro». Es fácil de ver para los humanos, pero resulta que para los sistemas 
de IA, reconocer ejemplos de situaciones visuales, por sencillas que sean, 
resulta muy difícil. Identificar situaciones completas es mucho más difícil 
que identificar objetos individuales. 


Figura 49. Cuatro casos atípicos de «pasear a un perro». 


Mis colaboradores y yo estamos desarrollando un programa llamado 
Situate, que combina la capacidad de reconocimiento de objetos de las 
redes neuronales profundas con la arquitectura de símbolos activos de 


Copycat, para identificar ejemplos de situaciones particulares a base de 
hacer analogías. Nos gustaría que nuestro programa fuera capaz de 
reconocer no solo ejemplos sencillos, como los de la figura 48, sino 
también ejemplos poco ortodoxos que requieran deslices conceptuales. El 
prototipo de situación «pasear a un perro» incluye una persona (que pasea 
al perro), un perro y una correa. La persona sujeta la correa, la correa está 
sujeta al perro y la persona y el perro pasean. ¿Verdad? En efecto, eso es lo 
que vemos en los ejemplos de la figura 48. Pero los humanos que entienden 
el concepto de pasear a un perro también pueden identificar cada una de las 
imágenes de la figura 49 como ejemplos de este concepto y, por otra parte, 
ser conscientes de cuánto «varía» cada una de ellas con respecto a la 
versión prototípica. El objetivo de Situate, que aún está en las primeras 
fases de desarrollo, es poner a prueba las ideas sobre los mecanismos 
generales que sirven de base a los humanos para crear analogías y 
demostrar que las ideas fundamentales del programa Copycat pueden 
funcionar con éxito más allá del micromundo de las analogías en cadenas 
de letras. 

Copycat, Metacat y Situate no son más que tres ejemplos de los diversos 
programas de construcción de analogías basados en la arquitectura de 
símbolos activos de Hofstadter.[351] Es más, la arquitectura de símbolos 
activos es solo uno de los numerosos métodos que se están utilizando en el 
mundo de la IA para crear programas capaces de hacer analogías. Sin 
embargo, aunque la analogía es fundamental para la cognición humana a 
todos los niveles, todavía no existen programas de IA que se acerquen ni 
remotamente a la capacidad humana en este sentido. 


«Estamos verdaderamente muy lejos» 


La era moderna de la inteligencia artificial está dominada por el aprendizaje 
profundo, con su triunvirato de redes neuronales profundas, macrodatos y 
ordenadores ultrarrápidos. Sin embargo, en la búsqueda de una inteligencia 


sólida y general, es posible que el aprendizaje profundo se esté encontrando 
con un muro: la importantísima «barrera del significado». En este capítulo 
he presentado un breve repaso de algunos de los intentos que se están 
haciendo en IA para derribar esa barrera. He analizado cómo los 
investigadores (yo entre ellos) están tratando de infundir en los ordenadores 
conocimiento de sentido común y capacidades de tipo humano para la 
abstracción y la creación de analogías. 

Mientras reflexionaba sobre este tema, me llamó especialmente la 
atención una deliciosa y perspicaz entrada de blog escrita por Andrej 
Karpathy, el experto en aprendizaje profundo y visión por ordenador que 
ahora dirige los trabajos de IA en Tesla. En su artículo, titulado «The State 
of Computer Vision and Al: We Are Really, Really Far Away» (El estado de 
la visión por ordenador y la IA. Estamos verdaderamente muy lejos),[352] 
Karpathy describe sus reacciones, como investigador de visión por 
ordenador, ante una foto concreta, que se muestra en la figura 50. Dice que 
a los humanos esta imagen nos parece graciosa y se pregunta: «¿Qué haría 
falta para que un ordenador entendiera esta imagen como la entendemos 
usted 0 yo?». 


Figura 50. La foto comentada en el blog de Andrej Karpathy. 


Karpathy enumera muchas cosas que los humanos comprendemos 
fácilmente pero que siguen quedando fuera de alcance para incluso los 
mejores programas actuales de visión por ordenador. Por ejemplo, 
identificamos que hay gente en la escena, pero también que hay espejos, por 
lo que algunas de las personas son reflejos en esos espejos. Sabemos que el 
sitio es un vestuario y nos sorprende lo raro que es ver a un grupo de 
personas vestidas de traje en ese lugar. 

Además, identificamos que una persona está de pie sobre una báscula, 
aunque esta consista en unos píxeles blancos que se confunden con el 
fondo. Karpathy señala que reconocemos que «Obama tiene el pie colocado 
ligeramente encima de la báscula» y que lo describimos sin problemas en 
términos de la estructura tridimensional de la escena que deducimos, en 
lugar de a partir de la imagen bidimensional que se nos da. Nuestro 
conocimiento intuitivo de la física nos permite razonar que el pie de Obama 
va a hacer que la báscula le atribuya más peso a la persona que está encima. 
Nuestro conocimiento intuitivo de la psicología nos dice que la persona que 
está en la báscula no es consciente de que Obama tiene también puesto el 
pie: lo deducimos por la dirección en la que mira y porque sabemos que no 
tiene ojos en la nuca. También sabemos que la persona probablemente no 
percibe la ligera presión del pie de Obama sobre la balanza. Nuestra teoría 
de la mente nos permite predecir además que el hombre no va a alegrarse 
cuando la báscula muestre que pesa más de lo que creía. 

Por último, nos damos cuenta de que Obama y las demás personas que 
observan la escena están sonriendo: de sus expresiones deducimos que les 
divierte la broma que le está gastando Obama al hombre de la báscula, 
posiblemente más divertida debido a quién es Obama. También 
reconocemos que es una risa amistosa y que esperan que el hombre de la 
báscula también se ría cuando se dé cuenta. Karpathy señala: «Estás 


razonando sobre el estado de ánimo de la gente y su opinión sobre el estado 
de ánimo de otra persona. La cosa se está volviendo aterradoramente meta». 

En resumen: «Es asombroso que todas las inferencias anteriores se 
deriven de un breve vistazo a una matriz de valores [de píxeles] en dos 
dimensiones». 

Creo que el ejemplo de Karpathy encarna a la perfección la complejidad 
de la comprensión humana, mostrando con claridad meridiana la magnitud 
de las dificultades que afronta la IA. Karpathy escribió el artículo en 2012, 
pero su mensaje sigue siendo válido hoy en día, y creo que lo seguirá siendo 
durante mucho tiempo. 

Karpathy termina con esta reflexión: 

Una conclusión aparentemente ineludible para mí es que puede que [...] necesitemos la 

corporalidad, y que la única manera de construir ordenadores que puedan interpretar escenas 

como nosotros es dejar que tengan todos los años de experiencia (estructurada, temporalmente 
coherente) que tenemos, la capacidad de interactuar con el mundo y una mágica arquitectura 


de aprendizaje activo e inferencia que casi no puedo ni imaginar cuando pienso en 
retrospectiva sobre lo que debería ser capaz de hacer. 


En el siglo xvi, el filósofo René Descartes especuló con la idea de que 
nuestro cuerpo y nuestro pensamiento están formados por sustancias 
diferentes y sujetos a leyes físicas distintas.[353] Desde los años cincuenta, 
los enfoques dominantes para estudiar la IA han adoptado implícitamente la 
tesis de Descartes, asumiendo que unos ordenadores incorpóreos pueden 
llegar a alcanzar una inteligencia general. Sin embargo, un pequeño 
segmento de los profesionales de la IA ha defendido sistemáticamente la 
llamada hipótesis de la corporeidad: la premisa de que una máquina no 
puede alcanzar un nivel de inteligencia humano sin tener algún tipo de 
cuerpo que interactúe con el mundo.[354] Desde este punto de vista, un 
ordenador colocado sobre un escritorio o incluso un cerebro incorpóreo que 
creciera dentro de un contenedor no podría adquirir jamás los conceptos 
necesarios para la inteligencia general. Solo podría alcanzar una 
inteligencia de nivel humano una máquina adecuada, que tenga un cuerpo y 


actúe en el mundo. Como Karpathy, casi no puedo ni imaginar qué avances 
harían falta para construir una máquina así. Pero, después de muchos años 
lidiando con la IA, el argumento de la corporalidad me parece cada vez más 
convincente. 
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Preguntas, respuestas 
y especulaciones 


cs el final de su libro de 1979 Gédel, Escher, Bach, Douglas Hofstadter 
se entrevistó a sí mismo sobre el futuro de la IA. En una sección titulada 
«Diez preguntas y especulaciones», planteaba y respondía preguntas no 
solo sobre las posibilidades del pensamiento automático, sino también sobre 
la naturaleza general de la inteligencia. Cuando leí GEB, recién licenciada, 
me interesó mucho esta parte. Las especulaciones de Hofstadter me 
convencieron de que, a pesar de todo el revuelo mediático sobre lo 
inminente de una inteligencia artificial de nivel humano (sí, ya lo hubo en 
los años ochenta), en realidad era un tema muy abierto y muy necesitado de 
nuevas ideas. A los jóvenes que empezábamos a trabajar en este campo aún 
nos aguardaban muchos obstáculos. 

Al escribir ahora, más de tres décadas después, he pensado que sería 
apropiado acabar este libro con algunas de las preguntas, respuestas y 
especulaciones que yo me planteo, como homenaje a aquella sección de 
Hofstadter en GEB y como forma de enlazar las ideas que he presentado. 


Pregunta: ¿Cuándo serán comunes y corrientes 
los coches autónomos? 


Depende de lo que se entienda por conducción autónoma. La 
Administración Nacional de Seguridad del Tráfico en Carretera de Estados 
Unidos ha definido seis niveles de autonomía para los vehículos. Los 
reproduzco aquí parafraseados. 


— NIVEL 0: El conductor humano se encarga de toda la conducción. 

— NIVEL 1: El vehículo puede ayudar a veces al conductor humano con la dirección o la 
velocidad del vehículo, pero no con las dos simultáneamente. 

— NIVEL 2: El vehículo puede controlar simultáneamente la dirección y la velocidad del 
vehículo en algunas circunstancias (normalmente en autopista). El conductor humano debe 
seguir prestando atención («supervisar el entorno de conducción») en todo momento y 
encargarse de todos los demás aspectos de la conducción, como cambiar de carril, salir de 
las autopistas, detenerse en los semáforos y parar cuando lo ordena un coche de policía. 

— NIVEL 3: El vehículo puede encargarse de todos los aspectos de la conducción en 
determinadas circunstancias, pero el conductor humano debe prestar atención todo el 
tiempo y estar preparado para recuperar el control en cualquier momento en que el vehículo 
se lo pida. 

— NIVEL 4: El vehículo puede encargarse de todos los aspectos de la conducción en 
determinadas circunstancias. En esas circunstancias, el ser humano no necesita prestar 
atención. 

— NIVEL 5: El vehículo puede encargarse de toda la conducción en cualquier circunstancia. Los 
ocupantes humanos no son más que pasajeros y nunca necesitan encargarse de la 
conducción.[355] 


Seguro que se han fijado en una condición muy importante: «en 
determinadas circunstancias». Es imposible hacer una lista exhaustiva de 
las circunstancias en las que, por ejemplo, un vehículo de nivel 4 puede 
encargarse de toda la conducción, mientras que es fácil imaginar muchas 
circunstancias que seguramente serían difíciles para un vehículo autónomo: 
por ejemplo, mal tiempo, congestión de tráfico urbano, una zona en obras o 
una carretera estrecha de doble dirección sin carriles señalizados. 

En el momento de escribir estas líneas, la mayoría de los coches que 
circulan están entre los niveles O y 1: tienen control de velocidad de 
Crucero, pero no de la dirección ni de los frenos. Algunos modelos recientes 
—los que tienen «control de crucero adaptativo»— se consideran de nivel 
1. Hay ya algunos tipos de vehículos en los niveles 2 y 3, como los Tesla, 


que disponen de un sistema de piloto automático. Los fabricantes y usuarios 
de estos vehículos están aprendiendo todavía qué situaciones se incluyen en 
las «determinadas circunstancias» en las que el conductor humano debe 
recuperar el control. También hay vehículos experimentales que pueden 
funcionar de forma totalmente autónoma en una gran variedad de 
circunstancias, pero siguen necesitando «conductores de seguridad» 
humanos que estén listos para tomar el control en un momento dado. Ha 
habido varios accidentes mortales causados por coches autónomos, entre 
ellos algunos experimentales, cuando se suponía que había una persona 
preparada para hacerse con el control pero en realidad no estaba prestando 
atención. 

El sector de los coches autónomos quiere a toda costa fabricar y vender 
vehículos que lo sean por completo (es decir, de nivel 5); de hecho, la 
publicidad sobre los coches autónomos lleva mucho tiempo 
prometiéndonos la autonomía total a los consumidores. ¿Qué obstáculos 
impiden que nuestros coches tengan verdadera autonomía? 

Los principales obstáculos son los tipos de situaciones de cola larga 
(«casos extremos») que he descrito en el capítulo 6: situaciones para las que 
el vehículo no está entrenado y que, individualmente, quizá se den muy 
pocas veces, pero que, en conjunto, serán frecuentes cuando los vehículos 
autónomos se generalicen. Como ya he explicado, un conductor humano se 
enfrenta a estas situaciones utilizando el sentido común, sobre todo la 
capacidad de comprender y predecir situaciones nuevas por analogía con 
situaciones que el conductor ya conoce. 

La plena autonomía de los vehículos también requiere el tipo de 
conocimiento intuitivo básico del que he hablado en el capítulo 14: 
intuición física, biológica y, sobre todo, psicológica. Para conducir con 
confianza en cualquier circunstancia, un conductor debe comprender las 
motivaciones, los objetivos e incluso las emociones de otros conductores, 
ciclistas, peatones y animales con los que comparte la carretera. Evaluar 


una situación compleja y juzgar en milésimas de segundo quién parece que 
va a cruzar la calle en rojo, correr para coger el autobús, hacer un giro 
repentino sin señalizarlo o detenerse en pleno paso de peatones para 
ajustarse un zapato de tacón roto es algo que le sale de forma natural a la 
mayoría de los conductores humanos, pero todavía no a los coches 
autónomos. 

Otro problema que amenaza a los vehículos autónomos es la posibilidad 
de que sufran ataques maliciosos de diversos tipos. Los expertos en 
seguridad informática han demostrado que ya muchos de los coches no 
autónomos que conducimos hoy en día —y que cada vez están más 
controlados por ordenador— son vulnerables a la piratería informática a 
través de sus conexiones a redes inalámbricas, como Bluetooth, redes de 
telefonía móvil y conexiones a internet.[356] Los coches autónomos, que 
estarán completamente controlados por ordenador, podrán quedar todavía 
más a merced de la piratería informática malintencionada. Además, como 
explicaba en el capítulo 6, los investigadores del aprendizaje automático 
han demostrado posibles «ataques antagónicos» a los sistemas de visión por 
ordenador de los coches autónomos, algunos tan sencillos como colocar 
discretas pegatinas en las señales de stop para que el coche las identifique 
como señales de límite de velocidad. Desarrollar medidas informáticas de 
seguridad adecuadas para los coches será una parte fundamental de la 
tecnología de conducción autónoma. 

Aparte de los ataques informáticos, otro problema será lo que podríamos 
llamar la naturaleza humana. Será inevitable que la gente quiera gastar 
bromas a los coches autónomos para descubrir sus puntos débiles. Por 
ejemplo, subir y bajar de una acera (simulando que se va a cruzar la calle) 
para impedir que circule el coche. ¿Cómo habría que programar a los 
vehículos para que reconozcan este tipo de comportamientos y gestionen 
bien la situación? Además, con los vehículos totalmente autónomos 


también habrá que resolver problemas legales de peso, como a quién se 
considera responsable en caso de accidente y qué tipo de seguro se exigirá. 

Hay una cuestión especialmente delicada en relación con el futuro de los 
coches autónomos: ¿la industria debe aspirar a una autonomía parcial, en la 
que el coche conduzca en «determinadas circunstancias» pero el conductor 
humano tenga que prestar atención y recuperar el control en caso necesario? 
¿O el único objetivo debe ser la autonomía total, que el ser humano pueda 
confiar por completo en la conducción del coche y no necesite prestar 
atención nunca? 

La tecnología para fabricar vehículos totalmente autónomos y 
suficientemente fiables —que puedan manejarse por sí solos en casi todas 
las situaciones— no existe todavía debido a los problemas que he descrito 
antes. Es difícil prever cuándo se resolverán estos problemas; he visto que 
las predicciones de los «expertos» oscilan entre unos cuantos años y varias 
décadas. Hay que recordar la máxima de que el primer 90 por ciento de un 
proyecto tecnológico complejo ocupa el 10 por ciento del tiempo y el 
último 10 por ciento ocupa el 90 por ciento del tiempo. 

La tecnología para la autonomía parcial de nivel 3 ya existe. Pero, como 
se ha demostrado muchas veces, los seres humanos no gestionan nada bien 
la autonomía parcial. Aunque los conductores humanos sepan que en teoría 
deben prestar atención en todo momento, a veces no lo hacen, y como los 
coches no son capaces de lidiar con todas las situaciones que se plantean, se 
producen accidentes. 

¿En qué situación nos deja esto? Para lograr la plena autonomía en la 
conducción se necesita una IA general, que seguramente tardará todavía en 
ser realidad. Ya existen coches con autonomía parcial, pero son peligrosos 
porque los humanos que los conducen no siempre prestan atención. La 
solución más probable a este dilema es cambiar la definición de autonomía 
total: permitir que los coches autónomos conduzcan solo en zonas 
específicas, las que hayan sido creadas con la infraestructura necesaria para 


garantizar que los coches van a ser seguros. Una versión frecuente de esta 
solución es la llamada «geovalla». Jackie DiMarco, exingeniera jefe de 
vehículos autónomos de Ford, lo explicaba así: 
Cuando hablamos de autonomía de nivel 4, es autonomía total dentro de una geovalla, es decir, 
dentro de una zona en la que tenemos delimitado un mapa de alta definición. Quien tiene ese 
mapa puede entender su entorno. Puede saber dónde están las farolas, dónde están los pasos de 
peatones, cuáles son las normas de circulación, el límite de velocidad, etc. Pensamos en una 
autonomía que se desarrolle dentro de una determinada geovalla y se vaya extendiendo a 


medida que avancen la tecnología, nuestro aprendizaje y nuestra capacidad para resolver cada 
vez más problemas.[357] 


Claro que los inoportunos seres humanos siguen rondando por la geovalla. 
El investigador de IA Andrew Ng opina que hay que educar a los peatones 
para que tengan un comportamiento más predecible cerca de los vehículos 
autónomos: «Lo que le decimos a la gente es: “Por favor, respeten las 
normas y, por favor, sean considerados”».[358] La empresa de conducción 
autónoma de Ng, Drive.ai, ha creado una flota de furgonetas taxi totalmente 
autónomas que recogen y dejan pasajeros en zonas debidamente 
geovalladas; han empezado en Texas, uno de los pocos estados cuyas leyes 
permiten este tipo de vehículos. Pronto veremos los resultados del 
experimento, con sus optimistas planes de educación de los peatones. 


Pregunta: ¿La IA supondrá el desempleo masivo 
entre los humanos? 


No lo sé. Creo que no, al menos a corto plazo. La máxima de Marvin 
Minsky de que «lo fácil es difícil» sigue siendo cierta respecto a gran parte 
de la IA, y es probable que muchos trabajos humanos sean mucho más 
difíciles para los ordenadores (o los robots) de lo que se podría pensar. 

No cabe duda de que los sistemas de IA sustituirán a los humanos en 
algunos trabajos; ya lo han hecho, y a menudo la sociedad ha salido 
beneficiada. Pero nadie sabe aún qué consecuencias globales tendrá la IA 


en el empleo, porque nadie puede predecir las capacidades que tendrán las 
futuras tecnologías de IA. 

Se han publicado muchas informaciones sobre los posibles efectos de la 
IA en el empleo que se centran sobre todo en la vulnerabilidad de los 
millones de puestos de trabajo relacionados con la conducción. Es posible 
que los humanos que trabajan en esos sectores acaben siendo sustituidos, 
pero la incertidumbre sobre cuándo se generalizará de verdad la conducción 
autónoma hace que sea difícil de predecir un calendario. 

A pesar de la incertidumbre, la cuestión de la tecnología y el empleo 
forma parte (con razón) del debate general actual sobre la ética de la IA. 
Varias personas han señalado que, históricamente, las nuevas tecnologías 
han creado tantos tipos nuevos de puestos de trabajo como los que 
sustituyen, y quizá la IA no sea una excepción. Tal vez elimine puestos de 
conductor de camiones, pero la necesidad de desarrollar la ética de la IA 
hará que se creen nuevos puestos para filósofos morales. No digo esto para 
quitar importancia al posible problema, sino para dejar clara la 
incertidumbre que existe en torno a esta cuestión. Un minucioso informe 
elaborado en 2016 por el Consejo de Asesores Económicos de Estados 
Unidos sobre los posibles efectos de la IA en la economía subrayaba este 
aspecto: «Hay gran incertidumbre sobre cuánto y con qué rapidez se dejarán 
sentir estos efectos. [...] Con las pruebas de que disponemos actualmente, 
no es posible hacer predicciones concretas, por lo que los responsables 
políticos deben estar preparados para una variedad de posibles resultados». 
[359] 


Pregunta: ¿Podría ser creativo un ordenador? 


A mucha gente la idea de que un ordenador sea creativo le parece un 
oxímoron. Al fin y al cabo, la esencia misma de una máquina es ser 
mecánica, un término que en el lenguaje cotidiano connota lo contrario de 
creatividad. Un escéptico podría razonar: «Un ordenador solo puede hacer 


aquello para lo que está programado por un ser humano. Por tanto, no puede 
ser creativo; la creatividad implica crear algo nuevo por tu cuenta».[360] 

Creo que este punto de vista —que un ordenador, por definición, no 
puede ser creativo porque solo puede hacer aquello para lo que está 
explícitamente programado— está equivocado. Hay muchas formas de que 
un programa de ordenador pueda generar cosas en las que nunca había 
pensado su programador. Mi programa Copycat (descrito en el capítulo 
anterior) creaba muchas veces analogías que nunca se me habrían ocurrido, 
pero que tenían su propia y peculiar lógica. Creo que, en principio, es 
posible que un ordenador sea creativo. Pero también creo que ser creativo 
implica ser capaz de comprender y juzgar lo que uno ha creado. Si tomamos 
la creatividad en este sentido, no se puede decir que ningún ordenador 
actual sea creativo. 

Una pregunta relacionada es si un programa informático puede producir 
una obra de arte o una pieza musical bella. La belleza es muy subjetiva, 
pero mi respuesta es sí, sin la menor duda. He visto numerosas obras de arte 
generadas por ordenador que me parecen bellas. Un ejemplo es el «arte 
genético» del informático y artista Karl Sims.[361] Sims programaba 
ordenadores para que generaran obras de arte digitales utilizando un 
algoritmo inspirado en la selección natural darwiniana. A partir de 
funciones matemáticas con algunos elementos aleatorios, el programa de 
Sims generaba varias obras de arte posibles diferentes. Una persona 
seleccionaba la que más le gustase. El programa creaba variaciones de la 
obra seleccionada introduciendo elementos aleatorios en las funciones 
matemáticas de base. Después, la persona seleccionaba qué mutación 
prefería, y así sucesivamente durante muchas iteraciones. Este proceso creó 
algunas obras abstractas asombrosas, que se han expuesto en numerosos 
museos. 

En el proyecto de Sims, la creatividad deriva del trabajo en equipo de 
humanos y ordenador: el ordenador genera primero unas obras de arte y 


luego las sucesivas variaciones, y el ser humano juzga las obras creadas 
basándose en la comprensión humana de conceptos artísticos abstractos. El 
ordenador no comprende nada, así que por sí solo no es creativo. 

Ha habido ejemplos similares con la creación de música, en los que un 
ordenador es capaz de generar música bella (o al menos agradable), pero en 
mi opinión la verdadera creatividad solo existe si colabora con un ser 
humano que preste la capacidad de entender qué hace que la música sea 
buena y, por tanto, emita un juicio sobre la producción del ordenador. 

El programa informático más famoso que ha compuesto música de esta 
forma fue el programa Experiments in Musical Intelligence (Experimentos 
de Inteligencia Musical, EMD),[362] que mencioné en el prólogo. EMI se 
concibió para generar música según el estilo de varios compositores 
clásicos, y algunas de sus piezas consiguieron engañar incluso a músicos 
profesionales, a los que hizo creer que eran obra del verdadero compositor. 

El programa EMI lo creó el compositor David Cope, en principio para 
que fuera una especie de «asistente de compositor» personal. A Cope le 
intrigaba la larga tradición de emplear la aleatoriedad para componer 
música. Un ejemplo famoso es el llamado juego de los dados musicales, 
practicado por Mozart y otros compositores del siglo xvm, en el que un 
compositor cortaba una partitura musical en pequeños segmentos (por 
ejemplo, compases sueltos) y luego tiraba los dados para decidir cómo se 
ordenaban los segmentos en la nueva pieza. 

Se podría decir que EMI era un juego de dados musicales elevado a la 
enésima potencia. Para que EMI creara piezas al estilo de Mozart, por 
ejemplo, Cope empezó por seleccionar de entre las obras de Mozart una 
gran colección de breves segmentos musicales y utilizó un programa 
informático escrito por él que identificaba patrones musicales cruciales que 
él llamaba «firmas»: los patrones que ayudan a definir el estilo peculiar del 
compositor. Cope escribió otro programa que clasificaba cada firma en 
función de las funciones musicales concretas que podía desempeñar en una 


pieza. Las firmas se almacenaban en una base de datos correspondiente al 
compositor (Mozart, en nuestro ejemplo). Cope también desarrolló en EMI 
un conjunto de reglas —una especie de «gramática» musical — que 
plasmaban las restricciones a la hora de recombinar las variaciones de las 
firmas para crear una pieza musical coherente en un estilo concreto. EMI 
empleaba un generador de números aleatorios (el equivalente informático a 
lanzar dados) para seleccionar las firmas y crear segmentos musicales a 
partir de ellas; después, el programa utilizaba su gramática musical para 
decidir cómo ordenar los segmentos. 

De este modo, EMI podía generar un número ilimitado de nuevas 
composiciones «al estilo» de Mozart o de cualquier otro compositor para el 
que se hubiera construido una base de datos de firmas musicales. Cope 
eligió cuidadosamente las mejores composiciones de EMI para publicarlas. 
He escuchado varias y me parece que las hay mediocres y 
sorprendentemente buenas, con algunos pasajes preciosos, aunque ninguna 
tiene la profundidad de la obra del compositor original. (Por supuesto, digo 
esto sabiendo de antemano que las piezas son de EMI, así que quizá tenga 
algún prejuicio). Las piezas más largas contienen muchos pasajes 
deliciosos, pero también tienen una tendencia poco humana a perder el hilo 
de una idea musical. No obstante, en general, las obras publicadas de EMI 
consiguen Captar muy bien el estilo de varios compositores clásicos 
diferentes. 

¿Era creativo EMI? Mi respuesta es no. Parte de la música generada por 
EMI era bastante buena, pero se basaba en los conocimientos musicológicos 
de Cope, que estaban integrados en las firmas musicales que él organizaba y 
las reglas musicológicas que él concebía. Y, sobre todo, yo diría que el 
programa no entendía realmente la música que generaba, ni en términos de 
conceptos musicales ni en cuanto a la repercusión emocional de la música. 
Por eso EMI no podía juzgar la calidad de su propia música. Esa 


responsabilidad recaía en Cope, que se limitaba a decir: «Las obras que me 
gustan se publican y las que no, no».[363] 

En 2005, en una decisión que me resulta desconcertante, Cope destruyó 
toda la base de datos de firmas musicales de EMI. El principal motivo que 
alegó fue que, como las composiciones de EMI eran tan fáciles e infinitas 
de generar, los críticos las despreciaban. Cope pensaba que solo valorarían a 
EMI como compositor si tenía, como escribió la filósofa Margaret Boden, 
«una Obra finita, como la tienen todos los compositores humanos, asediados 
por la mortalidad».[364] 

No sé si mi opinión le servirá de consuelo a Douglas Hofstadter, tan 
apenado por las composiciones más impresionantes de EMI y su capacidad 
de engañar a los músicos profesionales. Entiendo la preocupación de 
Hofstadter. Como ha observado el profesor de Literatura Jonathan 
Gottschall, «el arte es seguramente lo que más distingue a los seres 
humanos del resto de la creación. Es lo que más orgullosos de nosotros 
mismos nos hace sentir».[365] Pero me gustaría añadir que lo que nos 
enorgullece no es solo la creación de arte, sino también nuestra capacidad 
de apreciarlo, de entender por qué nos conmueve y de comprender lo que 
comunica. Esa apreciación y esa comprensión son esenciales tanto para el 
público como para el artista; sin ellas, creo que no se puede llamar 
«creativa» a una obra. En definitiva, a la pregunta «¿Podría ser creativo un 
ordenador?», respondería que en teoría sí, pero falta mucho tiempo. 


Pregunta: ¿Cuánto tiempo falta para crear una IA 
general de nivel humano? 


Para responder voy a citar a Oren Etzioni, director del Allen Institute for 
Al: «Las estimaciones que hayas hecho duplicalas,  triplicalas, 
cuadruplícalas. Eso falta».[366] 

Si quieren una segunda opinión, recordemos la frase de Andrej Karpathy 
del capítulo anterior: «Estamos verdaderamente muy lejos».[367] 


Estoy de acuerdo. 

Las computadoras empezaron siendo humanas. En realidad, solían ser 
mujeres que hacían cálculos a mano o con calculadoras mecánicas de 
escritorio; por ejemplo, los cálculos necesarios durante la Segunda Guerra 
Mundial para diseñar la trayectoria de los misiles y ayudar a los soldados a 
apuntar sus cañones de artillería. Ese era el significado original de 
computadora. Según el libro de Claire Evans Broad Band, en los años 
treinta y cuarenta, «el término chica y el término computadora eran 
intercambiables. Un miembro del Comité de Investigación de Defensa 
Nacional [...] calculó que una unidad de “kilochica” de energía equivalía 
aproximadamente a mil horas de trabajo de computación».[368] 

A mediados de los años cuarenta, las computadoras electrónicas 
sustituyeron a las humanas y enseguida se volvieron sobrehumanas: a 
diferencia de un ser humano, las máquinas podían calcular «la trayectoria 
de un proyectil muy veloz con más rapidez de la que tenía el propio 
proyectil».[369] Esta fue la primera de las muchas tareas concretas que las 
computadoras han hecho muy bien. Los ordenadores actuales — 
programados con algoritmos de IA de última generación— han conquistado 
muchas otras tareas concretas, pero la inteligencia general aún se les resiste. 

Hemos visto que, durante toda la historia de este campo, diversos 
profesionales destacados han predicho que la IA general llegará de aquí a 
diez años, o quince, o veinticinco, o «dentro de una generación». Pero 
ninguna de estas predicciones se ha hecho realidad. Como expliqué en el 
capítulo 3, la «apuesta a largo plazo» entre Ray Kurzweil y Mitchell Kapor 
sobre si un programa superará o no una prueba de Turing cuidadosamente 
estructurada se decidirá en 2029. Yo apuesto por Kapor; estoy totalmente de 
acuerdo con su opinión, citada en el prólogo: «La inteligencia humana es un 
fenómeno maravilloso, sutil y mal conocido. No hay peligro de que se 
duplique a corto plazo».[370] 


«Las predicciones son difíciles, especialmente sobre el futuro». Se puede 
discutir quién acuñó esta ingeniosa ocurrencia, pero vale para la IA tanto 
como para otros sectores. Varias encuestas entre especialistas en IA, a los 
que se preguntó cuándo llegaría la IA general o la IA «superinteligente», 
revelan una gran variedad de opiniones, que van desde «en los próximos 
diez años» hasta «nunca».[371] En otras palabras, no tenemos ni idea. 

Lo que sí sabemos es que para que haya una IA general de nivel humano 
serán necesarias unas Capacidades que los investigadores de la IA llevan 
décadas intentando comprender y reproducir —conocimiento de sentido 
común, abstracción y construcción de analogías, entre otras—, pero que han 
demostrado ser muy difíciles de emular. Y sigue habiendo otras preguntas 
sin respuesta: ¿la IA general necesitará tener consciencia?, ¿tener 
conciencia de sí misma?, ¿sentir emociones?, ¿poseer instinto de 
supervivencia y miedo a la muerte?, ¿tener un cuerpo? Como decía Marvin 
Minsky, al que cité anteriormente: «Estamos todavía en un periodo 
formativo de nuestras ideas sobre la mente». 

La cuestión de cuándo alcanzarán los ordenadores la superinteligencia 
—«un intelecto mucho más capaz que los mejores cerebros humanos en 
prácticamente todos los campos, incluidas la creatividad científica, la 
sabiduría general y las habilidades sociales»—{372] me parece, como 
mínimo, problemática. 

Varios autores han afirmado que si los ordenadores alcanzan una IA 
general de nivel humano, estas máquinas se volverán rápidamente 
«superinteligentes», en un proceso similar a lo que decía I. J. Good sobre 
una «explosión de inteligencia» (descrita en el capítulo 3). La teoría es que 
un ordenador con inteligencia general será capaz de leer todos los 
documentos de la humanidad y aprender todo lo que hay que saber a la 
velocidad del rayo. También será capaz de descubrir, gracias a unas 
capacidades de deducción cada vez mayores, todo tipo de nuevos 
conocimientos que podrá convertir en un nuevo poder cognitivo en sí 


mismo. Esa máquina no estaría restringida por las molestas limitaciones que 
tenemos los humanos, como la lentitud de pensamiento y aprendizaje, la 
irracionalidad y los sesgos cognitivos, la susceptibilidad al aburrimiento, la 
necesidad de dormir y las emociones, que son estorbos para el pensamiento 
productivo. Desde este punto de vista, una máquina superinteligente 
abarcaría casi una inteligencia «pura», sin ninguna de nuestras debilidades. 

Más probable me parece que estas supuestas limitaciones de los humanos 
sean una parte fundamental de nuestra inteligencia general. Es más, las 
limitaciones cognitivas que nos impone el hecho de tener un cuerpo que se 
mueve en el mundo, las emociones y los prejuicios «irracionales» que 
evolucionaron para permitirnos funcionar como grupo social y todas las 
demás cualidades consideradas a veces «deficiencias» cognitivas, son 
precisamente lo que nos permite ser inteligentes en sentido general y no 
sabios en lo concreto. No puedo demostrarlo, pero creo que es probable que 
la inteligencia general no pueda separarse de todas estas aparentes 
deficiencias, ni en los seres humanos ni en las máquinas. 

En su sección «Diez preguntas y especulaciones» de GEB, Douglas 
Hofstadter abordó esta cuestión con una pregunta falsamente sencilla: 
«¿Podrá un ordenador pensante sumar deprisa?». Su respuesta me 
sorprendió la primera vez que la leí, pero ahora me parece acertada. «Quizá 
no. Nosotros también estamos hechos de un material que hace cálculos 
sofisticados, pero eso no significa que nuestro nivel simbólico, donde 
estamos “nosotros”, sepa hacer esos mismos cálculos sofisticados. Por 
suerte para nosotros, nuestro nivel simbólico (es decir, nosotros) no puede 
acceder a las neuronas dedicadas a pensar, porque nos quedaríamos 
atontados. [...] ¿Por qué no iba a pasar lo mismo con un programa 
inteligente?». Hofstadter seguía explicando que un programa inteligente, al 
igual que nosotros, representaría los números como «conceptos totalmente 
desarrollados, como hacemos nosotros, llenos de asociaciones [...]. Con 


todo este “lastre”, un programa inteligente sería bastante vago a la hora de 
sumar».[373] 


Pregunta: ¿Hasta qué punto debemos estar 
aterrorizados por la IA? 


Si lo que sabemos de la IA es lo que cuentan las películas y las novelas de 
ciencia ficción (e incluso algunos libros de divulgación), es normal que 
tengamos miedo de que la inteligencia cobre conciencia, se vuelva malvada 
e intente esclavizarnos o matarnos a todos. Pero, con lo lejos que parece 
estar todavía conseguir algo parecido a la inteligencia general, no es eso lo 
que preocupa a la mayoría de los profesionales de la IA. Como he expuesto 
en todo este libro, hay muchos motivos para preocuparse por la 
precipitación con la que nuestra sociedad está lanzándose hacia el uso de la 
tecnología de IA: la posibilidad de perder muchos puestos de trabajo, la 
posibilidad de que los sistemas de IA se usen de forma indebida y la 
inestabilidad y vulnerabilidad de estos sistemas frente a los ataques no son 
sino algunas de las preocupaciones muy legítimas de quienes se preocupan 
por las consecuencias de la tecnología en la vida de los seres humanos. 
Comencé este libro relatando la consternación de Douglas Hofstadter 
ante los recientes avances de la IA, pero lo que le aterrorizaba a él, sobre 
todo, era otra cosa totalmente distinta. Lo que le preocupaba a Hofstadter 
era que a los programas de IA les resultara demasiado fácil igualar la 
cognición y la creatividad humanas, y que las sublimes creaciones de las 
mentes humanas que más veneraba —Chopin, por ejemplo— tuvieran que 
rivalizar con algoritmos superficiales como EMI, que utilizaban «todo tipo 
de trucos». Hofstadter se lamentaba: «Si esas mentes de infinita sutileza y 
complejidad y profundidad emocional pudieran acabar trivializadas por un 
pequeño chip, destruiría mi idea de cuál es la esencia de la humanidad». A 
Hofstadter también le inquietaban las predicciones de Kurzweil sobre la 


futura Singularidad y le angustiaba que si Kurzweil tuviera razón, «nos 
desbancarán. Seremos reliquias. Nos quedaremos tirados». 

Empatizo con Hofstadter y sus preocupaciones, pero creo que son 
claramente prematuras. El mensaje que más quiero transmitir con este libro 
es que los humanos tendemos a sobrevalorar los avances de la IA y a 
subestimar la complejidad de nuestra propia inteligencia. La IA actual está 
muy lejos de la inteligencia general, y no creo que la «superinteligencia» de 
las máquinas esté en el horizonte. Si la IA general se hace algún día 
realidad, estoy segura de que su complejidad será equiparable a la de 
nuestro cerebro. 

En cualquier lista de preocupaciones a corto plazo sobre la IA, la 
superinteligencia debe estar muy abajo. En realidad, el auténtico problema 
es el contrario de la superinteligencia. A lo largo de este libro he mostrado 
que incluso los mejores sistemas de IA son frágiles; es decir, cometen 
errores cuando su entrada varía demasiado respecto a los ejemplos con los 
que se los ha entrenado. Muchas veces es difícil predecir en qué 
circunstancias saldrá a la luz la fragilidad de un sistema de IA. A la hora de 
transcribir un discurso, traducir entre idiomas, describir el contenido de 
fotos, conducir en una ciudad abarrotada, cuando es crucial un 
comportamiento fiable, sigue siendo necesaria la participación de los seres 
humanos. Creo que el aspecto más preocupante de los sistemas de IA a 
corto plazo es que les demos demasiada autonomía sin ser totalmente 
conscientes de sus limitaciones y vulnerabilidades. Tenemos tendencia a 
antropomorfizar la IA: le atribuimos cualidades humanas y acabamos 
sobrestimando hasta qué punto se puede confiar completamente en estos 
sistemas. 

El economista Sendhil Mullainathan, al escribir sobre los peligros de la 
[A, incluyó el fenómeno de las colas largas (que expliqué en el capítulo 6) 
dentro de su noción de «riesgo de cola»: 


Debemos tener miedo. No de las máquinas inteligentes. Sino de las máquinas que toman 
decisiones para las que no tienen la inteligencia necesaria. Tengo mucho más miedo de la 
estupidez de las máquinas que de su inteligencia. La estupidez de las máquinas crea un riesgo 
de cola. Las máquinas pueden tomar muchísimas decisiones acertadas y, un día, cometer un 
fallo estrepitoso en una situación que no aparecía en sus datos de entrenamiento. Esa es la 
diferencia entre la inteligencia específica y la inteligencia general.[374] 


O, como dijo el investigador de IA Pedro Domingos en una frase 
memorable: «A la gente le preocupa que los ordenadores se vuelvan 
demasiado inteligentes y se apoderen del mundo, pero el verdadero 
problema es que son demasiado estúpidos y ya se han apoderado del 
mundo».[375] 

A mí me preocupa la falta de fiabilidad de la IA. También me preocupa 
cómo se use. Además de los aspectos éticos que abordé en el capítulo 7, una 
cosa concreta que me asusta es el uso de sistemas de IA para generar 
medios de comunicación falsos: textos, sonidos, imágenes y vídeos que 
muestran con un realismo aterrador hechos que en realidad nunca han 
sucedido. 

En resumen, ¿debe aterrorizarnos la IA? Sí y no. Para las máquinas 
superinteligentes y conscientes falta mucho tiempo. No va a haber «todo 
tipo de trucos» que igualen los aspectos de nuestra humanidad que más 
valoramos. Por lo menos yo no lo creo. Pero sí hay muchas cosas por las 
que preocuparse en relación con las posibilidades de que los algoritmos y 
los datos se usen de forma peligrosa y poco ética. Da miedo, pero, por otro 
lado, es alentador ver la gran atención que este tema ha recibido en los 
últimos tiempos en el mundo de la IA y fuera de él. Cada vez hay más 
sentimiento de cooperación y propósito común entre los investigadores, las 
empresas y los políticos sobre la urgencia de abordar estos problemas. 


Pregunta: ¿Qué problemas apasionantes de la IA 
siguen sin resolverse? 


Casi todos. 


Cuando empecé a trabajar en IA, lo que me apasionaba era, en parte, que 
casi todos los interrogantes estaban por resolver, a la espera de nuevas 
ideas. Creo que sigue siendo así. 

Si nos remontamos a los inicios del sector, la propuesta de 1955 de John 
McCarthy y otros (descrita en el capítulo 1) enumeraba algunos de los 
principales temas de investigación de la IA: procesamiento del lenguaje 
natural, redes neuronales, aprendizaje automático, conceptos abstractos y 
razonamiento, y creatividad. En 2015, el director de investigación de 
Microsoft, Eric Horvitz, dijo en tono de broma que «incluso se podría decir 
que la propuesta [de 1955], debidamente reformateada, podría volverse a 
presentar a la National Science Foundation [...] hoy mismo y 
probablemente conseguiría financiación de algunos gestores de programas 
entusiasmados».[376] 

Esto no es en absoluto una crítica a las investigaciones de hace años 
sobre IA. La inteligencia artificial es un campo tan difícil, por lo menos, 
como cualquiera de los otros grandes retos científicos de la humanidad. 
Rodney Brooks, del MIT, lo expresó mejor que nadie: «Cuando comenzó la 
[A, la fuente de inspiración eran sin duda el rendimiento y la inteligencia de 
los seres humanos. Creo que ese objetivo es lo que atrajo a la mayoría de 
los investigadores a este campo durante los primeros sesenta años. El hecho 
de que no hayamos conseguido nada remotamente cercano a lo que se 
ambicionaba no significa que los investigadores no hayan trabajado mucho 
ni que no hayan sido excelentes. Significa que es un objetivo muy difícil». 
[877] 

Los aspectos más apasionantes de la IA no se centran solo en las posibles 
aplicaciones. Quienes fundaron este campo lo hicieron porque querían 
resolver preguntas científicas sobre la naturaleza de la inteligencia, no solo 
para desarrollar nuevas tecnologías. De hecho, la idea de que la inteligencia 
es un fenómeno natural, que puede estudiarse como muchos otros 
fenómenos mediante la construcción de modelos informáticos 


simplificados, fue lo que atrajo a mucha gente (yo, por ejemplo) a este 
campo. 

La IA seguirá teniendo cada vez más repercusiones para todos nosotros. 
Espero que este libro les haya ayudado, como seres humanos pensantes, a 
tener cierta idea del estado actual de esta pujante disciplina, incluidos los 
numerosos problemas sin resolver, los posibles riesgos y beneficios de sus 
tecnologías y las preguntas científicas y filosóficas que plantea a la hora de 
comprender nuestra propia inteligencia humana. Y si algún ordenador está 
leyendo esto, que me diga quién es el sujeto de «plantea» en la frase 
anterior y será bienvenido a unirse a la discusión. 
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MELANIE MITCHELL 


NTELIGENCIA . . . efe o 
INTELIGENCIA — frustrantes reveses como la inteligencia artificial. La 


eee galardonada autora Melanie Mitchell, una destacada 
cientifica informatica, revela ahora la turbulenta historia de la IA y la 
reciente oleada de aparentes éxitos, grandes esperanzas y temores 
emergentes que la rodean. 
En “Inteligencia Artificial”, Mitchell aborda las cuestiones más urgentes de 
la IA en la actualidad: ¿Hasta qué punto son realmente inteligentes los 
mejores programas de IA? ¿Cómo funcionan? ¿Qué pueden hacer realmente 
y cuándo fallan? ¿Hasta qué punto esperamos que se asemejen a los 
humanos y cuándo debemos preocuparnos de que nos superen? Por el 
camino, presenta los modelos dominantes de la IA y el aprendizaje 
automático modernos, describiendo los programas de IA más avanzados, 
sus inventores humanos y las líneas de pensamiento históricas que sustentan 
los logros recientes. Se reúne con otros expertos como Douglas Hofstadter, 
científico cognitivo y autor del clásico moderno Gödel, Escher, Bach, 
ganador del Premio Pulitzer, quien explica por qué está "aterrorizado" ante 
el futuro de la IA. Explora la profunda desconexión entre el bombo 
publicitario y los logros reales de la IA, proporcionando una idea clara de lo 


que el campo ha logrado y cuánto le queda por recorrer. 


Entrelazando historias sobre la ciencia de la IA y la gente que hay detrás, 
“Inteligencia Artificial? rebosa de relatos claros, cautivadores y accesibles 
de los trabajos modernos más interesantes y provocativos en este campo, 
aderezados con el humor y las observaciones personales de Mitchell. 

Este libro franco y animado es una guia indispensable para entender la IA 
actual, su búsqueda de una inteligencia "de nivel humano" y su impacto en 
el futuro de todos nosotros. 

Un bienvenido correctivo a los temores y esperanzas exagerados sobre la 
IA, y el manual prefecto para empezar a entender cómo funcionan 
realmente los sistemas.” -Alison Gopnik, profesora de Psicología en la 
Universidad de Berkeley "Sin rehuir los detalles técnicos, este estudio 
ofrece un curso accesible sobre redes neuronales, visión por ordenador y 
procesamiento del lenguaje natural, y plantea si la búsqueda de una 
inteligencia general abstraída es preocupante... La visión de Mitchell es 
tranquilizadora". -The New Yorker 

"Mitchell se desmarca de la exageración a la que a menudo es propenso el 
campo de la inteligencia artificial y expone lo que hace bien, en qué falla y 


cómo podría hacerlo mejor". -George Musser. 
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